数据挖掘大战 机器怎么做到“见信如面”
大数据杀熟?隐私换便捷?一度被热捧的大数据挖掘,近日站在了舆论的风口浪尖:一些商家利用大数据挖掘技术“杀熟”被网友亲测证实;百度董事长兼CEO李彦宏一句“中国人对隐私问题没有那么敏感”,更是让它的处境雪上加霜。大数据挖掘技术就像一位有了负面新闻的明星,霎时间光彩暗淡,似乎变成了偷人隐私的小贼。
《大数据时代》一书畅销之后的几年,大数据虽不再那么当红,但并未隐退,它的持续发展已成为人工智能得以实现的基础之一。
那么,大数据挖掘究竟是怎样的技术?从诞生发展至今,那些埋头苦干的技术人员又让它长了哪些本领?面对大数据难以管理的问题,有没有技术手段加以控制?
用户画像:机器给人类贴标签
“通过打标签的方式建立用户画像,是数据挖掘常用的一种技术。”北京大学计算机科学技术研究所多媒体信息处理研究室主任彭宇新教授解释,建立用户画像就是利用社交网络的信息,根据用户社会属性、生活习惯和消费行为等信息,抽象出一个标签化的用户模型,目标是使机器实现类似于人的“见信如面”的能力。社交网络数据是实现这一目标的基础,机器对人的“初相见”多是源自于对社交网络数据的挖掘。
标签,通常是通过对用户信息进行分析得到的高度精炼的特征标识,使得机器方便做信息提取、聚合分析等处理。标签本身无需再做过多文本分析等处理工作,这为利用机器提取标准化信息提供了便利。
“有了标签,计算机就能够自动处理与人相关的信息,能够通过算法、模型逐步‘理解’ 人。”彭宇新介绍,多个标签共同完成画像,整个过程可分三步走:一是采集数据,即基于文本的信息抓取,口语称为“爬数据”;二是用户行为建模,通过机器学习技术,形成算法模型,判断用户可能的一些行为;三是可视化展现,把机器运算出来的结果,通过能让人类理解的方式展现出来。这三步是多轮调整的,在实际应用中,根据结果的反馈,以及业务需求,可能进行二次建模等调整。
整个过程的影响参数是相对多元的,不同的行为类型,对于标签信息的权重影响也不同。以应用最广的商品营销为例,比如网售红酒,如果“购买”权重计为5,仅“浏览”计为1,加上浏览间隔、驻留时长、生活习惯等,通过复杂的算法最终呈现出一个标签的权重,再形成画像。
基于用户画像技术,大数据挖掘进行分类和关联规则计算等分析:例如喜欢红酒的用户有多少,喜欢红酒的人群中,男、女比例是多少,喜欢红酒的人通常喜欢什么运动品牌等等。
跨媒体智能识别:为计算机装上慧眼
“以前文本信息占主流,现在图像、视频等多媒体数据铺天盖地而来。”彭宇新说,后者目前占据大数据的80%以上。
数据类型发生的巨大变化,使得智能识别的任务更加艰巨。“管不住”和“用不好”的问题日益凸显。“机器只能读懂自己的语言。”彭宇新说,人类世界的所有语言都要转化为机器理解的语言才能被识别,以前只处理文本相对简单,而现在要加上复杂的图像、视频等数据。
“例如,世界上有数千种鸟类,很多种的差异非常细微,即使是有专业知识的人类也很难准确辨认,计算机自动识别的难度就更大了。”彭宇新说,图像、视频内容理解的难点在于如何进行语义自动识别,这也是他们团队多年攻关的课题之一,为此团队发明了基于注意力模型和深度增量学习的识别方法。
注意力模型,顾名思义是让计算机自动定位图像的显著性区域,以此提高检测精度;深度增量学习,是指计算机能够利用已经学到的知识加速对新知识的学习,同时通过动态扩容以支持新概念的检测。
新模型新算法的发力,帮助机器快速识别图像、视频的语义信息。彭宇新团队近年来六次参加国际权威评测TRECVID的视频样例搜索比赛均获第一名,并在与卡内基梅隆大学、牛津大学、IBM Watson研究中心等参赛队伍的较量中胜出。其中一个题目就是在464个小时的视频中快速准确地找出所有的伦敦地铁标志,彭宇新团队仅用了不到1秒就成功胜出,获得第一名。
单媒体信息的分析与识别之上,如何进一步让机器像人类一样能看、能理解呢?
为达到跨媒体信息融合与一体化分析识别的目的,项目团队首先把数据按照不同媒体类型自动分发到对应的分析与识别模块。例如,对视频镜头进行分割、对关键帧进行提取,然后分发到镜头检索、片断检索、视频字幕识别等模块中,对单媒体分析结果进行跨媒体语义关联分析,实现跨媒体信息的语义协同。“一种常用的方法是构建第三方空间进行跨媒体关联。”彭宇新说,“计算机根据我们教它的模型分别为图像、视频、文本、音频抽取表征,再共同投射到一个第三方空间中,这样不同媒体的信息就可以对话了。”
技术的“抽丝剥茧”,让图像、视频中的信息可以如文本一般精确透明。“我们是瞄着应用去的,准确率、处理速度都经过多年的优化,已经可以进行实际应用了。”彭宇新介绍,这项技术不仅帮助新闻媒体等行业进行数据管理和检索,还在助力互联网管理部门对大数据进行分析与监测。
延伸阅读
匿名处理:可预期的隐私保护对策
打破信息控制权几乎不可能,但隐私保护却有个很便捷的方法。北京邮电大学教授杨义先的《安全简史》中有个形象的比喻,如果数据在网上“裸奔”,为了不被溯源,最便捷的安全手段是“把脸捂住”。这就是所谓的“匿名化处理机制”。
“用户隐私保护的相关规定要求,数据公司在售卖数据时,需要对数据进行匿名化处理。”北京大学计算机科学技术研究所研究员赵东岩说。但为了精准定位、推送服务,匿名化处理可能被忽视。“精准意味着目标客户群的ID指向,而不是向群体发送,因此,个性化推送和匿名化处理在目前的技术中是相互冲突的。”
针对上面的冲突,业界的先行者提出一种区块链的解决思路。“我称它为OF ID。”北京领主科技公司研究人员刘伟泰说,“大数据的本质是群体研究,但是群体粒度可以细一些,此外,区块链技术可以授予用户授权的方法。”
不难想象,随着新技术的不断创新,会有更多用于信息安全的技术突破,不是一门心思用于大数据挖掘,而是也能用于制衡“信息控制权”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19