如今,科学家们正越来越多的把目光转向社交媒体,以研究线上及线下的人类行为,例如预测夏季股票市场的大波动。一些数据处理专家指出,使用该种方法处理数据时,研究者们须警惕超大量社交媒体数据背后可能存在的严重缺陷。
错误的结果可能产生严重的影响:每年,都有上千的研究报告是基于社交媒体上收集而来的数据。麦吉尔大学计算科学学院助理教授Derek Ruths称“这些文章中有好些被用来通报和决断公众,行业及政府的投资决策”。
卡内基梅隆大学软件科学院的合作作者Jürgen Pfeffer则说,“并不是所有打上“大数据”标签的东西就都很好”,他指出许多研究者都有或是希望有如此的前提——即只要数据足够多,他们就能修正任 何可能产生的偏差。“然而,行为学研究中的一句老话说的好:了解你的数据”。不过,社交媒体作为数据源之一吸引力实在惊人。“人们想要了解世界上正发生着 什么,这无疑是快速的跟进办法。”以2013年的波士顿马拉松爆炸案为例,Pfeffer在两周内收集了两千五百万的相关tweets(推特)。“你能了 解百万计人的行为——还都是免费的。”
数据过滤与SPAM
一篇发表在《科学》杂志上的评论中,Ruths和Pfeffer强调了可能导致社交媒体数据失真的若干因素,及它们的解决办法。
包括:
不同社交媒体平台吸引不同的受众——比如,Instagram对18~29岁间的成年人吸引力最大,包括非裔美国人,拉丁人,女性和城市居民,而在 Pinterest上,占主导地位的则是那些家庭年收入超过(*)100,000,25~34岁的女性用户。Ruths和Pfeffer指出,研究人员很 少能够知晓,更谈不上正确对待这些内含的采样偏差。
社交媒体研究所使用的公开数据并不总能准确反映平台的总体状况——研究者们关于网站建立者如何过滤他们的数据源常常一头雾水。
社交媒体的设计通常会影响用户的行为,从而改变所测量的数据。比如,Facebook没有“不喜欢”的按钮,这就使得负面内容相比于正面的“喜欢”更难被侦查到。
大量SPAM(垃圾邮件发送者和机器人)通常在社交媒体上伪装成普通用户,也被错误地纳入了很多人类行为测算和预测。
研究者们还经常只报告来自于易于分类的用户,主题和事件所得出的结论,这就使得新的方法看起来更加准备。例如,在推知Twitter用户的政治取向时,只取得了65%的准确率——即使研究(侧重于政治活跃用户)声称有90%的准确度。
解决方法
Ruths和Pfeffer指出,以上很多问题都有显而易见的解决方法,这些方法被广泛地用在诸如流行病学,统计学和机械学等领域。Ruths说,“这些问题的共同点就是,需要研究者们在分析社交媒体数据时,能更加敏锐地感知数据本身。”
社会学家应对此种挑战的技术和标准已经十分纯熟了。Ruths说,“1948年,臭名昭著的“杜威击败杜鲁 门”报纸标题就来自于电话调查,它最终在采样上低估了杜鲁门的支持者。这并不是在抹黑民意调查,正是那次显而易见的错误导致了今天日益复杂的技术,更高的 标准,以及更加准确的民调。如今,我们站在与当年类似的技术发展拐点上。通过解决面临的问题,我们才能实现基于社交媒体的研究所展现出的巨大潜力。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09