面对大数据过分渲染宣传,你需要了解的9件事
大数据和开放数据不是一回事,但他们有着密切的联系(正如我在主题发言稿“未来的大数据将会开放到什么程度?”上写到的)。我们正在关注的大数据一些趋势和话题与开放数据也有关系。按照这样的脉络,就出炉了这篇我在去哥伦布的路上学到的《了解大数据的九件事》。在研讨会的官网上可以看到我用黑体标注的人们的名字。
为大数据的激烈反应做好准备。很多演讲者提到了“大数据过分渲染宣传”的话题,认为大数据被讨论得如此热烈,以至于我们现在可以进入一个反应性的循环。MikeNelson对他在公开场合看到的逐渐出现的“垃圾数据”提出了责难,甚至建议我们应该重新命名大数据,它可以有一个“大兄弟”–就像很多人一样。他建议改名为:BFFMUDD,是大(Big)、肥(Fat)、快(Fast)、乱(Messy)、非结构化(Unstructured)、分布式数据(DistributedData)的缩写。
意识到“大数据的狂妄自大”.好几位演讲者引用了一份新报告,报告显示,“Google流感趋势”–大数据预测价值的首批大范例之一–被证明非常不准确。显然,Google可能自作聪明地以一种错误的方式调整了其算法。不管什么样的错误,这都是个教训,表明如果不着眼于更广阔的图景,而只是试图通过碾碎数据来发现真相,通常情况下无法获得预期效果。
数据不能代替判断。数据,尤其大数据是可以帮助人类做出决策的工具,但不能起到代替的作用。RayHarishankar是这样说的:“数据加上分析是信息,信息加上语境可以提供洞察力,洞察力必定能导向正确的行动,正确的行动则带来提升价值的结果”.
相关关系不能强过理论。一些大数据的倡导者认为大数据几乎让理论变得多余:他们说,有了足够的数据,即使没有理论说明其原因,我们也可以发现很多重要和有益的模式和趋势。确实,简单的相关关系在一定程度上就可以驱动精确的预测。但即便是具备预测分析的能力,也并不意味着你就能真正地理解你正在研习的系统是如何运行的。EytanAdar建议我们审视大数据范围从预测性到解释性的所有相关努力,并且更多地关注如何理解我们所看到的东西,而不是仅仅关注可预测未来的模式。
大数据正在-冒着风险–追踪一个“移动”
社会。在全球范围,移动设备都已经成为人类的首选在线连接工具。FarnamJahanian指出到2015年全球移动设备的数量将是人口数量的两倍,所有的设备都可以发送位置信息和其它数据给能够收集这些数据的公司。这将成为未来社会大数据的主要来源之一。但KateCrawford?指出了这里的隐私风险:由于人类移动行为模式的独特性,你可以仅用3-4个手机生成的数据点就能识别一个人。
大数据能帮助–或者损害城市的民主体制。正如HarveyMiller所说,通过手机数据、远程环境感应器、激光生成的航空地图和更多工具来追踪城市活动的能力,可以给我们创造拥有更高代谢功能的超级协调城市。(遗憾的是,我不得不在MichaelBatty关于城市分析的主题演讲之前离开,不过他在个人网站上提供了演讲内容)但是,KateCrawford在这里再次提出了警告。如果我们不小心,城市数据收集就会不对称地帮助富人而伤害穷人。比如,波士顿的StreetBumpAPP应用通过追踪智能手机的摆动状态来收集坑洼里的数据,用志愿者的数据来反映一条道路的颠簸不平。但大多数智能手机的拥有者都属于生活富裕的人群,以至于最初是在更富有的地区监测和修复坑洼–这是StreetBump目前正在致力于修正的难题。在相反的另一面,“预测监控”正在被用于将警察管制实施于预测将会有高犯罪率的地区,这将导致歧视性的执法。
隐私仍然事关要紧。忘掉那些宣称公众,尤其是年轻人已经放弃隐私的报告吧。我们仍然关心隐私问题,只是不知道该怎么做。这里有两个考虑因素:我们想知道政府机构或数据跟踪公司收集到了哪些关于我们的数据信息,以及如果我们不喜欢,则想让他们停止收集。关于如何解决这些考虑因素还不是很清晰。会上的一些发言者建议采用简单的解决方案:让政府和公司对它们正在收集的数据更公开透明,这是一些人称之为“互相确认的公开”的方法。但是一个长期的透明度倡导者GaryBass说,这个建议的解决方案“不是真实的世界。在过去的30年里,我拼命地斗争让数据变得可获取,而政府和公司则拼命地让数据不可获取……这是一场旷日持久的斗争”.正如其他人所说,这里的风险在于我们可能增强了数据收集者和被收集者之间的力量不对称性。
大数据应当展现数据之美。数据可视化方面的迅速进步正在创造一些美轮美奂的效果。比如,看一看这部“体验自行车人流”的视频,逐渐解析伦敦自行车交通的数据,展示俄亥俄州超级计算机中心最清晰的模式和部分已经完成的可视化作品。类似这样的数据可视化并不仅仅关乎美学,而是与理解息息相关。IBM公司的一位数据可视化专家AngelaShen-Hsieh谈到人们需要使数据更加“适合人类消费”,以及关注从计算机屏幕到人脑的信息传递旅程中的“最后18英寸”.
大数据将(很有可能)产生大价值。抛开所有的警告不管,大数据中有很多社会价值和经济价值可以发掘。麦肯锡几年前一份具有里程碑意义的大数据报告预测它将撬动数万亿美元的经济价值。这项研究的联合作者,微软公司的AngelaByers?今天说到,也许仍需要5-10年时间才能产生这样的价值,部分原因是我们仍然面临一个重要的技能鸿沟:即可获得的数据数量和清楚如何利用这些数据的人的数量之间存在的差距。但是经济价值正在逐步显现,并且以某种令人惊异的方式呈现。JohanBollen和他的团队成员运用Twitter上的大数据情感分析来预测股票市场:他们计算Twitter上的“镇静”情绪来预测道琼斯指数三天后的收盘点位。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24