大数据挖掘究竟是什么能否有效监管-CDA数据分析师官网

大数据挖掘究竟是什么能否有效监管

2018-06-30

大数据挖掘究竟是什么能否有效监管

《大数据时代》一书畅销之后的几年，大数据虽不再那么当红，但并未隐退，它的持续发展已成为人工智能得以实现的基础之一。

　　那么，大数据挖掘究竟是怎样的技术？从诞生发展至今，那些埋头苦干的技术人员又让它长了哪些本领？面对大数据难以管理的问题，有没有技术手段加以控制？
　　用户画像：机器给人类贴标签
　　“通过打标签的方式建立用户画像，是数据挖掘常用的一种技术。”北京大学计算机科学技术研究所多媒体信息处理研究室主任彭宇新教授解释，建立用户画像就是利用社交网络的信息，根据用户社会属性、生活习惯和消费行为等信息，抽象出一个标签化的用户模型，目标是使机器实现类似于人的“见信如面”的能力。社交网络数据是实现这一目标的基础，机器对人的“初相见”多是源自于对社交网络数据的挖掘。
　　标签，通常是通过对用户信息进行分析得到的高度精炼的特征标识，使得机器方便做信息提取、聚合分析等处理。标签本身无需再做过多文本分析等处理工作，这为利用机器提取标准化信息提供了便利。
　　“有了标签，计算机就能够自动处理与人相关的信息，能够通过算法、模型逐步‘理解’ 人。”彭宇新介绍，多个标签共同完成画像，整个过程可分三步走：一是采集数据，即基于文本的信息抓取，口语称为“爬数据”;二是用户行为建模，通过机器学习技术，形成算法模型，判断用户可能的一些行为;三是可视化展现，把机器运算出来的结果，通过能让人类理解的方式展现出来。这三步是多轮调整的，在实际应用中，根据结果的反馈，以及业务需求，可能进行二次建模等调整。
　　整个过程的影响参数是相对多元的，不同的行为类型，对于标签信息的权重影响也不同。以应用最广的商品营销为例，比如网售红酒，如果“购买”权重计为5，仅“浏览”计为1，加上浏览间隔、驻留时长、生活习惯等，通过复杂的算法最终呈现出一个标签的权重，再形成画像。
　　基于用户画像技术，大数据挖掘进行分类和关联规则计算等分析：例如喜欢红酒的用户有多少，喜欢红酒的人群中，男、女比例是多少，喜欢红酒的人通常喜欢什么运动品牌等等。
　　跨媒体智能识别：为计算机装上慧眼
　　“以前文本信息占主流，现在图像、视频等多媒体数据铺天盖地而来。”彭宇新说，后者目前占据大数据的80%以上。
　　数据类型发生的巨大变化，使得智能识别的任务更加艰巨。“管不住”和“用不好”的问题日益凸显。“机器只能读懂自己的语言。”彭宇新说，人类世界的所有语言都要转化为机器理解的语言才能被识别，以前只处理文本相对简单，而现在要加上复杂的图像、视频等数据。
　　“例如，世界上有数千种鸟类，很多种的差异非常细微，即使是有专业知识的人类也很难准确辨认，计算机自动识别的难度就更大了。”彭宇新说，图像、视频内容理解的难点在于如何进行语义自动识别，这也是他们团队多年攻关的课题之一，为此团队发明了基于注意力模型和深度增量学习的识别方法。
　　注意力模型，顾名思义是让计算机自动定位图像的显著性区域，以此提高检测精度;深度增量学习，是指计算机能够利用已经学到的知识加速对新知识的学习，同时通过动态扩容以支持新概念的检测。
　　新模型新算法的发力，帮助机器快速识别图像、视频的语义信息。彭宇新团队近年来六次参加国际权威评测TRECVID的视频样例搜索比赛均获第一名，并在与卡内基梅隆大学、牛津大学、IBM Watson研究中心等参赛队伍的较量中胜出。其中一个题目就是在464个小时的视频中快速准确地找出所有的伦敦地铁标志，彭宇新团队仅用了不到1秒就成功胜出，获得第一名。
　　单媒体信息的分析与识别之上，如何进一步让机器像人类一样能看、能理解呢?
　　为达到跨媒体信息融合与一体化分析识别的目的，项目团队首先把数据按照不同媒体类型自动分发到对应的分析与识别模块。例如，对视频镜头进行分割、对关键帧进行提取，然后分发到镜头检索、片断检索、视频字幕识别等模块中，对单媒体分析结果进行跨媒体语义关联分析，实现跨媒体信息的语义协同。“一种常用的方法是构建第三方空间进行跨媒体关联。”彭宇新说，“计算机根据我们教它的模型分别为图像、视频、文本、音频抽取表征，再共同投射到一个第三方空间中，这样不同媒体的信息就可以对话了。”
　　技术的“抽丝剥茧”，让图像、视频中的信息可以如文本一般透明。“我们是瞄着应用去的，准确率、处理速度都经过多年的优化，已经可以进行实际应用了。”彭宇新介绍，这项技术不仅帮助新闻媒体等行业进行数据管理和检索，还在助力互联网管理部门对大数据进行分析与监测

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据用户画像数据挖掘数据类型精度关联规则准确率特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

大数据挖掘究竟是什么能否有效监管

CDA考试动态

CDA报考指南

热门栏目

最新资讯

单因素方差分析结果与多重比较

【CDA干货】13年国企财务：这样使用财务数据分析模 ...

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

大数据挖掘究竟是什么 能否有效监管

CDA考试动态

CDA报考指南

热门栏目

最新资讯

单因素方差分析结果与多重比较

【CDA干货】13年国企财务：这样使用财务数据分析模 ...

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

大数据挖掘究竟是什么能否有效监管