大数据挖掘关键技术及其应用-CDA数据分析师官网

大数据挖掘关键技术及其应用

2015-11-29

大数据挖掘关键技术及其应用

首先，我介绍一下我掌握的大数据挖掘的核心技术；其次，我介绍一下我在做的三个项目。

大<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>数据挖掘</a>关键技术及其应用

　　这是我们当前大数据存在的误区：重视运用，轻视了大数据的处理技术；重视“大”，忽视数据的本质需求。

　　正如同石油一样，如果没有核心的开采、分解技术，是不能生产处汽油、柴油及各类工业用品的。

　　“IntelligencemultiplelinearregressionanalysisusingMapReduceprogrammingmode”这是我们做的第一个大数据预测算法，基于MapReduce编程模型。

　　Thenovelbigdataminingalgorithminclude3parts:

　　（1）multiplelinearregressionanalysis；

　　（2）SHC-PSOoptimizationapproach；

　　（3）MapReduceprogrammingmode.

　　主要包含三个部分:多元线性回归预测、PSO智能变体算法。另外就是基于MapReduce编程模型，目前应用在电影大数据分析领域。

　　“Intelligencew-k-meanclusteringalgorithmusingmapreduceprogrammingmode”这个是一个大数据聚类挖掘算法。

　　Thenovelbigdataminingalgorithminclude3parts:

　　（1）w-k-meanclusteringalgorithm；

　　（2）SHC-PSOapproach；

　　（3）MapReduceprogrammingmode；

　　其中，“w-k-meanclusteringalgorithm”是一个数据聚类算法变体。SHC-PSO是我提出的一个PSO算法变体，通过SHC-PSO来改进“w-k-meanclusteringalgorithm”，最后通过“MapReduceprogrammingmode”来实现并行计算。

　　考虑到MapReduce编程模型局限性，为进一步提升上述两个挖掘算法的性能，我们改进了MapReduce编程模型：

大<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>数据挖掘</a>关键技术及其应用

　　问题1：MapReduce编程模型怎么改进的？

　　回答1：主要是根据负载均衡来实现自适应分块，原来是64M，现在是通过负载均衡来自适应分块，各个数据块大小不一样。

　　上面是我在大数据挖掘领域的三个研究点，下面我来介绍一下三个项目。由于跟公司有协议，不能介绍的太详细。

　　1.影院行业大数据智能处理系统（这是第一个项目——国内某大型影视企业的委托项目）

　　本项目针对影院大数据的量大、多样、多变的特征，研究相应的高效大数据智能处理算法和问题模型，从而发现电影大数据的商业和社会价值；并基于此开发影院大数据的智能处理平台，在平台上实现一个综合应用大数据智能处理技术的影院示范应用，促进大数据处理技术的发展，推动影院大数据在票房预测、电影排产决策、影院排产预警等关键应用领域取得突破。

　　谷歌也发布了基于搜索大数据的票房预测报告，在影片上映前一个月预测，准确率高达94%。谷歌票房预测主要基于三个指标，一是预告片播放量，二是同系列电影此前几部的成绩，三是电影档期的季节特征。

　　所谓电影大数据分析，指通过收集整理各个方面的海量数据，对其进行分析和挖掘，进而从中获得有价值的信息，并指导公司经营、提高效益的一种新的商业模式。

　　我们对电影票房预测所用的数据：国内历史票房数据、互联网站影片点击、影片评分数据、互联网站影片的评论、搜索引擎影片搜索数量、微博与微信中的话题及活跃度，基于数据预测新上映影片在国内的整体票房，通过影片预售情况进行修正。

　　我们主要是通过多元线性回归算法和mapreduce编程模型来是实现，目前在中山大学软件学院私有云上进行了测试（云平台：16个节点服务器，有1、2台是坏的）。

　　2.面向大数据的海洋碳汇微生物资源库建设决策研究（第二个项目——广州市建设国家级科技思想库研究课题专项）

　　我国CO2排放量已超过美国成为世界第一排放大国，作为发展中国家，我们不能一味地硬性减排而牺牲经济发展。我们必须保障经济平稳较快发展，出路是增加CO2的吸收和储藏（碳汇），即“增汇”。“增汇”就是另一种形式的“减排”。

　　海洋是最大的碳库。研究海洋储碳机制，研发海洋碳汇，为我国应对全球气候变化提供科学依据，是国家急需。海洋占地球表面积71%，是地球上最大的“碳库”。生物圈中循环的碳有95%存在于海洋中，海洋中的碳储量是大气圈的50倍、生物圈的20倍。海洋有着巨大的“增汇”潜力。

　　（1）海洋碳汇功能微生物信息数据库构建；

　　（2）海洋碳汇微生物大数据私有云；

　　（3）海洋碳汇微生物大数据智能处理；

　　•海洋微型生物碳汇特性智能检测和预测

　　•分难降解产物细菌智能筛选

　　•尝试常规难于分离菌的智能分离

　　3.面向大数据的高校科研管理信息化及关键技术研究（第三个项目——广东省教育项目）

　　近年来，大数据引起了产业界、学术界以及政府部门的高度关注。高校作为我国科研创新的重要基地，科研信息化水平极大影响到高校创新事业的发展。目前我国高校科技管理信息化存在数据共享度比较低，科技产出数据零散不系统，数据的质量不理想，信息化数据的利用率低等问题。本项目研究了大数据的核心技术以及传统模式下的科研管理面临的挑战，并提出了面向大数据技术的科研管理信息化解决方案。

　　融合科研管理信息化的大数据关键技术：

　　（1）大数据样本选取策略；

　　（2）基于分布的大数据分治策略研究；

　　（3）大数据分类算法研究；

　　（4）大数据聚类算法研究；

　　（5）面向大数据的科研评估研究；

　　（6）面向大数据的项目立项决策研究；

　　（7）面向大数据的优化科研资源配置研究；

　　（8）面向大数据的科研项目的全过程管理研究；

　　（9）面向大数据的科研规划研究。

　　除了上述三个项目外，目前我们还在做大数据的可视化工作，我本人在上述三个项目中担任项目经理或主持人，我的汇报完毕，谢谢大家！希望大家提出指导意见！陶乾

　　问题2：陶博，就第二个应用是否可展开一下？

　　回答2：由于涉及合作方，按照合同规定，目前项目内容还不能介绍的很详细。请大家谅解！我介绍的第一个算：“multiplelinearregressionanalysis”——多元线性回归分析，是在标准的多元线性回归的基础上采用我提出的SHC-PSOoptimizationapproach来进行改进，主要是通过pso变体算法来计算多元线性回归参数，由于要处理大数据所以必须通过MapReduce来实现并行处理。

　　我们在该领域已经申请了专利：一种面向大数据的智能预测方法及系统。根据大数据预处理方法从异构的大数据源抽取和集成数据，在数据集成和提取时需要对数据进行清洗，保证数据质量；通过智能多元线性回归模型进行预测分析，并借助Mapreduce框架进行并行处理。

　　问题3：对比过粒子群算法与其他算法的效率情况如何？

　　回答3：粒子群算法（PSO算法）主要是用来改进多元线性回归的性能的，我们与传统的多元线性回归比较多，参数计算和评估更为合理，多元线性回归是一种很重要的预测方法。

　　问题4：舆情分析方面有什么应用？

　　回答4：通过大数据舆情分析，可以助力企业洞察商机社交媒体发展，可以企业了解市场竞争的行情,并协助企业制定相应的市场经营分析决策。舆情服务在进行行业规范和整合，关键还是要对舆情大数据进行有效分析，也就是要有高效、廉价的大数据分析方法。当然大数据的应用会带来生活等各方面根本性转变，但是必须建立在对大数据有效分析和处理的基础上，否则大数据就是死数据，正如同石油在我们脚下几千年也没有发现其科学价值。

　　问题5：你们申请的专利是中国还是国际的？批准了没有？

　　回答5：专利是国内的，是中科院负责处理。有网上抓的，有公司内部的，有些因为预处理很困难就直接在网上通过爬虫抓。“w-k-meanclusteringalgorithm”是“k-meanclusteringalgorithm”的变体。这个是黄哲学老师（我老师）提出的，我主要是SHC-PSO来改进了“w-k-meanclusteringalgorithm”性能并是实现了并行处理。

　　问题6：w是什么？

　　回答6：是权重。

　　问题7：SHC一PSO全名是什么？

　　回答7：SHC-PSOapproach是pso的变体算法，是我在13年新提出的一种高维混沌PSO算法。

　　问题8：难点在计算w吗？

　　回答8：w问题在08年应该解决了，关键是如何通过群体智能策略来改进聚类，两者都是早熟收敛的。

　　问题9：加权是针对feature的属性而改进。针对大数据也许存在计算效率问题，你的分布式计算实现可以深入讲讲。

　　回答9：是的，有效率问题。一般的k-mean并性处理比较简单，关键是算法效率问题。

　　问题10：另外聚类需要计算相似性/距离，对于heterogenous大数据需要妥善处理，你在实现中采用了什么措施？

　　回答10：MapReduce还是当前大数据处理的主要途径。我们主要还是在数据预处理上下功夫，不可能将很多问题带到挖掘算法中

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据线性回归数据挖掘数据分析特征分布式计算 Mapreduce

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

大数据挖掘关键技术及其应用

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...