清华大学用大数据分析了9000条微博谣言，还在研究自动辟谣-CDA数据分析师官网

清华大学用大数据分析了9000条微博谣言，还在研究自动辟谣

2017-01-16

清华大学用大数据分析了9000条微博谣言，还在研究自动辟谣

社交媒体上的谣言总是让人猝不及防，有些甚至能在短时间造成不小的危害。比如，几天前，微信怎么也不会想到，因为一个年终回顾的HTML5页面被提前泄露，带来大量用户点击导致服务器瘫痪，然后引发了盗号的谣言。最后的结果是，短短的几个小时内，数百万人从微信提现，解绑银行卡。

社交媒体上都流传着哪些谣言？这些谣言都是谁发布的？为什么会有人相信并主动参与传播这些谣言？社交网络上的信息是海量的，这些问题似乎很难回答。不过最近，清华大学智能技术与系统国家重点实验室的研究人员借用了自然语言处理的帮助，对新浪微博上的谣言大数据进行了全面的分析，试图找出答案。

2012年5月，新浪微博设立了举报处理大厅，谣言占了不良信息中的一大部分。研究人员利用微博举报大厅公布的实时数据收集谣言信息。

他们收集了从2011年8月到2015年5月期间出现的9079条谣言，用函数模型对这些数据进行了预处理，发现了一些有趣的现象。

大部分微博谣言会在其发布的一个周内被举报并辟谣

第一，大多数微博谣言的影响力都比较小, 转发和评论数在500次以下的微博占到整体的84%。只有极少量的微博谣言具有极广的传播范围和强大的影响力。

第二，谣言通常要传播一段时间后，才有可能遭到举报；同时, 由于传播速度快，大部分微博谣言会在其发布的一个周内被举报并辟谣 (88.9%)。

第三，大量举报谣言的用户, 所举报的谣言往往与自己相关. 例如, 微博用户 “美汁源饮料” 举报了大量关于 “美汁源果粒橙” 饮料含有农药的谣言, 张家界纪委书记汪业元举报了大量关于 “汪业元发表 ‘对网络暴民杀无赦’ 的言论” 的谣言。

第四，大量发布谣言的用户，往往带有网络水军的性质，例如，有微博用户仅在几分钟的时间里发布了几十条微博, 其中大部分是谣言, 之后该用户就再未发过微博。

常识类谣言经常反复出现转发高峰

研究人员还根据谣言内容将其分成了5个分类：政治类谣言，例如钓鱼岛海域中日两国爆发海战；

经济类谣言，例如三星赔偿苹果几十车硬币；

欺诈类谣言，例如“四川藏区儿童需要御寒冬衣”，然后留下了一个虚假的联系电话；

社会生活类谣言，社会各界人物的花边新闻，例如六小龄童去世；

常识类谣言，例如阿司匹林能治疗心脏病。

这些谣言中，大部分属于社会生活类和政治类谣言 (约占70%)。而结合微博谣言发布、传播、高峰和消亡的过程还可以发现，不同的谣言出线转发峰值的情况也各部相同。

70%的谣言话题只有一个较大转发峰值，也就是说，被辟谣后，它们就会逐渐消亡。

另外，谣言的内容也和其转发峰值有关系：例如，常识类谣言由于受众广，辟谣难度较大，往往会反复被人们提及，出现多次爆发，约70%的常识类谣言通常有多个转发峰值。而关于名人或知名机构的谣言，由于关注人数众多，辟谣难度较小，因此发布之初就会出现较大转发峰值，但很快会被辟谣，约60%的此类谣言会在一个周内消亡。

人们为什么相信谣言

人们为什么会相信这些谣言呢？研究人员分析后将原因归结为两类：（1）知识受限，即缺乏专业知识而导致误信或无法辨认的谣言。例如，阿司匹林可以治疗急性心脏病；（2）时空受限谣言，即由于地域和时间限制无法辨认的谣言。例如, 有谣言称“杭州上城区一妇女喝了3罐可乐，两天后离开了这个世界。验尸结果是她死于细螺旋体病, 发病原因是直接用嘴对可乐罐饮用”。

自动辟谣框架

在对谣言进行分析之后，研究人员还试图建立一个自动辟谣机制。当然，在目前的技术条件下，自然语言处理技术还无法根据微博内容自动判断其是否为谣言。所以，研究人员的思路通过语义分析，自动根据谣言主题对其进行分类，然后发现最有可能判定该谣言的专家，推荐专家对疑似谣言进行鉴别。

研究人员的框架主要包括3个阶段的工作：

1. 谣言发布早期，通过用户举报和对可疑用户的监控建立疑似谣言的集合。一方面，将疑似谣言和谣言库中进行比对；另一方面, 对于在谣言库中没有匹配内容的谣言，通过查询该领域的专家库，推荐若干专家对该疑似谣言进行鉴别。

2. 谣言发布中期，通过自然语言处理技术分析疑似谣言的评论信息，通过社会网络分析技术分析疑似谣言的传播模式，判定该信息是否为谣言。

3. 谣言发布后期，对于判定为谣言的信息, 将其加入谣言库；对信息发布人进行可信性分析，确定其信用等级，将信用等级低于一定阈值的用户加入可疑用户库，在一段时间内对其发布的微博内容进行监控；对信息举报人和评论人进行专家发现，充实和更新该信息相关的知识领域的专家库。

当然，目前这一切还处于理论研究阶段，而建立可以用户库也需要以网站更严格地执行实名制为前提。用大数据、人工智能去对付谣言，前提是需要很多人交出更多的隐私，你愿意吗？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

自然语言处理大数据语义分析大数据分析人工智能数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇菜鸟联手快递公司推动行业大数据进程

下一篇大数据分析揭开明星片酬对电影票房影响的真相

清华大学用大数据分析了9000条微博谣言，还在研究自动辟谣

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...