大数据挖掘关键技术及其应用
首先,我介绍一下我掌握的大数据挖掘的核心技术;其次,我介绍一下我在做的三个项目。
这是我们当前大数据存在的误区:重视运用,轻视了大数据的处理技术;重视“大”,忽视数据的本质需求。
正如同石油一样,如果没有核心的开采、分解技术,是不能生产处汽油、柴油及各类工业用品的。
“IntelligencemultiplelinearregressionanalysisusingMapReduceprogrammingmode”这是我们做的第一个大数据预测算法,基于MapReduce编程模型。
Thenovelbigdataminingalgorithminclude3parts:
(1)multiplelinearregressionanalysis;
(2)SHC-PSOoptimizationapproach;
(3)MapReduceprogrammingmode.
主要包含三个部分:多元线性回归预测、PSO智能变体算法。另外就是基于MapReduce编程模型,目前应用在电影大数据分析领域。
“Intelligencew-k-meanclusteringalgorithmusingmapreduceprogrammingmode”这个是一个大数据聚类挖掘算法。
Thenovelbigdataminingalgorithminclude3parts:
(1)w-k-meanclusteringalgorithm;
(2)SHC-PSOapproach;
(3)MapReduceprogrammingmode;
其中,“w-k-meanclusteringalgorithm”是一个数据聚类算法变体。SHC-PSO是我提出的一个PSO算法变体,通过SHC-PSO来改进“w-k-meanclusteringalgorithm”,最后通过“MapReduceprogrammingmode”来实现并行计算。
考虑到MapReduce编程模型局限性,为进一步提升上述两个挖掘算法的性能,我们改进了MapReduce编程模型:
问题1:MapReduce编程模型怎么改进的?
回答1:主要是根据负载均衡来实现自适应分块,原来是64M,现在是通过负载均衡来自适应分块,各个数据块大小不一样。
上面是我在大数据挖掘领域的三个研究点,下面我来介绍一下三个项目。由于跟公司有协议,不能介绍的太详细。
1.影院行业大数据智能处理系统(这是第一个项目——国内某大型影视企业的委托项目)
本项目针对影院大数据的量大、多样、多变的特征,研究相应的高效大数据智能处理算法和问题模型,从而发现电影大数据的商业和社会价值;并基于此开发影院大数据的智能处理平台,在平台上实现一个综合应用大数据智能处理技术的影院示范应用,促进大数据处理技术的发展,推动影院大数据在票房预测、电影排产决策、影院排产预警等关键应用领域取得突破。
谷歌也发布了基于搜索大数据的票房预测报告,在影片上映前一个月预测,准确率高达94%。谷歌票房预测主要基于三个指标,一是预告片播放量,二是同系列电影此前几部的成绩,三是电影档期的季节特征。
所谓电影大数据分析,指通过收集整理各个方面的海量数据,对其进行分析和挖掘,进而从中获得有价值的信息,并指导公司经营、提高效益的一种新的商业模式。
我们对电影票房预测所用的数据:国内历史票房数据、互联网站影片点击、影片评分数据、互联网站影片的评论、搜索引擎影片搜索数量、微博与微信中的话题及活跃度,基于数据预测新上映影片在国内的整体票房,通过影片预售情况进行修正。
我们主要是通过多元线性回归算法和mapreduce编程模型来是实现,目前在中山大学软件学院私有云上进行了测试(云平台:16个节点服务器,有1、2台是坏的)。
2.面向大数据的海洋碳汇微生物资源库建设决策研究(第二个项目——广州市建设国家级科技思想库研究课题专项)
我国CO2排放量已超过美国成为世界第一排放大国,作为发展中国家,我们不能一味地硬性减排而牺牲经济发展。我们必须保障经济平稳较快发展,出路是增加CO2的吸收和储藏(碳汇),即“增汇”。“增汇”就是另一种形式的“减排”。
海洋是最大的碳库。研究海洋储碳机制,研发海洋碳汇,为我国应对全球气候变化提供科学依据,是国家急需。海洋占地球表面积71%,是地球上最大的“碳库”。生物圈中循环的碳有95%存在于海洋中,海洋中的碳储量是大气圈的50倍、生物圈的20倍。海洋有着巨大的“增汇”潜力。
(1)海洋碳汇功能微生物信息数据库构建;
(2)海洋碳汇微生物大数据私有云;
(3)海洋碳汇微生物大数据智能处理;
•海洋微型生物碳汇特性智能检测和预测
•分难降解产物细菌智能筛选
•尝试常规难于分离菌的智能分离
3.面向大数据的高校科研管理信息化及关键技术研究(第三个项目——广东省教育项目)
近年来,大数据引起了产业界、学术界以及政府部门的高度关注。高校作为我国科研创新的重要基地,科研信息化水平极大影响到高校创新事业的发展。目前我国高校科技管理信息化存在数据共享度比较低,科技产出数据零散不系统,数据的质量不理想,信息化数据的利用率低等问题。本项目研究了大数据的核心技术以及传统模式下的科研管理面临的挑战,并提出了面向大数据技术的科研管理信息化解决方案。
融合科研管理信息化的大数据关键技术:
(1)大数据样本选取策略;
(2)基于分布的大数据分治策略研究;
(3)大数据分类算法研究;
(4)大数据聚类算法研究;
(5)面向大数据的科研评估研究;
(6)面向大数据的项目立项决策研究;
(7)面向大数据的优化科研资源配置研究;
(8)面向大数据的科研项目的全过程管理研究;
(9)面向大数据的科研规划研究。
除了上述三个项目外,目前我们还在做大数据的可视化工作,我本人在上述三个项目中担任项目经理或主持人,我的汇报完毕,谢谢大家!希望大家提出指导意见!陶乾
问题2:陶博,就第二个应用是否可展开一下?
回答2:由于涉及合作方,按照合同规定,目前项目内容还不能介绍的很详细。请大家谅解!我介绍的第一个算:“multiplelinearregressionanalysis”——多元线性回归分析,是在标准的多元线性回归的基础上采用我提出的SHC-PSOoptimizationapproach来进行改进,主要是通过pso变体算法来计算多元线性回归参数,由于要处理大数据所以必须通过MapReduce来实现并行处理。
我们在该领域已经申请了专利:一种面向大数据的智能预测方法及系统。根据大数据预处理方法从异构的大数据源抽取和集成数据,在数据集成和提取时需要对数据进行清洗,保证数据质量;通过智能多元线性回归模型进行预测分析,并借助Mapreduce框架进行并行处理。
问题3:对比过粒子群算法与其他算法的效率情况如何?
回答3:粒子群算法(PSO算法)主要是用来改进多元线性回归的性能的,我们与传统的多元线性回归比较多,参数计算和评估更为合理,多元线性回归是一种很重要的预测方法。
问题4:舆情分析方面有什么应用?
回答4:通过大数据舆情分析,可以助力企业洞察商机社交媒体发展,可以企业了解市场竞争的行情,并协助企业制定相应的市场经营分析决策。舆情服务在进行行业规范和整合,关键还是要对舆情大数据进行有效分析,也就是要有高效、廉价的大数据分析方法。当然大数据的应用会带来生活等各方面根本性转变,但是必须建立在对大数据有效分析和处理的基础上,否则大数据就是死数据,正如同石油在我们脚下几千年也没有发现其科学价值。
问题5:你们申请的专利是中国还是国际的?批准了没有?
回答5:专利是国内的,是中科院负责处理。有网上抓的,有公司内部的,有些因为预处理很困难就直接在网上通过爬虫抓。“w-k-meanclusteringalgorithm”是“k-meanclusteringalgorithm”的变体。这个是黄哲学老师(我老师)提出的,我主要是SHC-PSO来改进了“w-k-meanclusteringalgorithm”性能并是实现了并行处理。
问题6:w是什么?
回答6:是权重。
问题7:SHC一PSO全名是什么?
回答7:SHC-PSOapproach是pso的变体算法,是我在13年新提出的一种高维混沌PSO算法。
问题8:难点在计算w吗?
回答8:w问题在08年应该解决了,关键是如何通过群体智能策略来改进聚类,两者都是早熟收敛的。
问题9:加权是针对feature的属性而改进。针对大数据也许存在计算效率问题,你的分布式计算实现可以深入讲讲。
回答9:是的,有效率问题。一般的k-mean并性处理比较简单,关键是算法效率问题。
问题10:另外聚类需要计算相似性/距离,对于heterogenous大数据需要妥善处理,你在实现中采用了什么措施?
回答10:MapReduce还是当前大数据处理的主要途径。我们主要还是在数据预处理上下功夫,不可能将很多问题带到挖掘算法中
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12