社交媒体的大数据并不可靠_数据分析师-CDA数据分析师官网

社交媒体的大数据并不可靠_数据分析师

2015-01-31

社交媒体的大数据并不可靠_数据分析师

如今，科学家们正越来越多的把目光转向社交媒体，以研究线上及线下的人类行为，例如预测夏季股票市场的大波动。一些数据处理专家指出，使用该种方法处理数据时，研究者们须警惕超大量社交媒体数据背后可能存在的严重缺陷。

错误的结果可能产生严重的影响：每年，都有上千的研究报告是基于社交媒体上收集而来的数据。麦吉尔大学计算科学学院助理教授Derek Ruths称“这些文章中有好些被用来通报和决断公众，行业及政府的投资决策”。

卡内基梅隆大学软件科学院的合作作者Jürgen Pfeffer则说，“并不是所有打上“大数据”标签的东西就都很好”，他指出许多研究者都有或是希望有如此的前提——即只要数据足够多，他们就能修正任何可能产生的偏差。“然而，行为学研究中的一句老话说的好：了解你的数据”。不过，社交媒体作为数据源之一吸引力实在惊人。“人们想要了解世界上正发生着什么，这无疑是快速的跟进办法。”以2013年的波士顿马拉松爆炸案为例，Pfeffer在两周内收集了两千五百万的相关tweets（推特）。“你能了解百万计人的行为——还都是免费的。”

数据过滤与SPAM

一篇发表在《科学》杂志上的评论中，Ruths和Pfeffer强调了可能导致社交媒体数据失真的若干因素，及它们的解决办法。

包括：

不同社交媒体平台吸引不同的受众——比如，Instagram对18~29岁间的成年人吸引力最大，包括非裔美国人，拉丁人，女性和城市居民，而在Pinterest上，占主导地位的则是那些家庭年收入超过0,000，25~34岁的女性用户。Ruths和Pfeffer指出，研究人员很少能够知晓，更谈不上正确对待这些内含的采样偏差。

社交媒体研究所使用的公开数据并不总能准确反映平台的总体状况——研究者们关于网站建立者如何过滤他们的数据源常常一头雾水。

社交媒体的设计通常会影响用户的行为，从而改变所测量的数据。比如，Facebook没有“不喜欢”的按钮，这就使得负面内容相比于正面的“喜欢”更难被侦查到。

大量SPAM（垃圾邮件发送者和机器人）通常在社交媒体上伪装成普通用户，也被错误地纳入了很多人类行为测算和预测。

研究者们还经常只报告来自于易于分类的用户，主题和事件所得出的结论，这就使得新的方法看起来更加准备。例如，在推知Twitter用户的政治取向时，只取得了65%的准确率——即使研究（侧重于政治活跃用户）声称有90%的准确度。

解决方法

Ruths和Pfeffer指出，以上很多问题都有显而易见的解决方法，这些方法被广泛地用在诸如流行病学，统计学和机械学等领域。

Ruths说，“这些问题的共同点就是，需要研究者们在分析社交媒体数据时，能更加敏锐地感知数据本身。”

社会学家应对此种挑战的技术和标准已经十分纯熟了。Ruths说，“1948年，臭名昭著的“杜威击败杜鲁门”报纸标题就来自于电话调查，它最终在采样上低估了杜鲁门的支持者。这并不是在抹黑民意调查，正是那次显而易见的错误导致了今天日益复杂的技术，更高的标准，以及更加准确的民调。如今，我们站在与当年类似的技术发展拐点上。通过解决面临的问题，我们才能实现基于社交媒体的研究所展现出的巨大潜力。”

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

偏差大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

社交媒体的大数据并不可靠_数据分析师

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...

社交媒体的大数据并不可靠_数据分析师​

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...

社交媒体的大数据并不可靠_数据分析师