都说大数据可以预测,那么它的界限在哪里
大数据必然会深刻地改变这个世界,这点是毋庸置疑的。但是从很多当下的讨论来看,大家似乎在大数据的使用边界上走入了误区,这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。
大数据与预测
人们总是想预测未来,因为这样经济收益会非常大,作为结果就经常看到大数据与票房预测的故事,有时准,有时不准。
大数据确实可以用来做预测,但是有能力边界的,影响这个能力边界的关键因素就是索罗斯经常说的反身性。反身性说的是:参入者的思维与参入的情景之间相互联系与影响,彼此无法独立,认知与参入处于永远的变化过程之中(百度百科)。反身性之所以对预测有影响,是因为它会导致出现不连续的变化。
这在逻辑上很好理解,当一件事物是连续变化的,你比较容易计算出它未来的状态,比如汽车,我们只要知道它的速度,那就比较容易预测它下一刻的位置。但如果是充满突变的混沌系统,这种预测就很难实现,汽车本来走的好好的,突然天上掉下一架飞机来,那它当然不会出现在本来预测的那个位置。所以做预测,第一关键是这系统是不是一个混沌系统,在充满偶然的混沌系统里,基于数据的预测是无效的。而反身性正是导致混沌蝴蝶会出现的一个关键因素。
当我们去观察某个系统并采取行动时,系统本身会因为我们的观察和行动发生改变,这就是反身性。而当每个人都这么做时,那被观察和操作的系统就会变成混沌系统。金融市场已经充分说明了这点,如果大数据在预测上是没边界的,那只要掌握了大数据就应用巧妙,那在金融市场上就没人不会赔钱,但显然这是不可能的,最多是不同人输赢的概率不同。
容易预测的与不容易预测的
如果一种现实更多地依赖于某些不易改变的因素,比如一种文化传统、一种生物特性,那这种现实是容易被预测的;如果一种现实更多地依赖于可被瞬间改变的因素,比如:人们的心情,那这种现实是不容易预测的,甚至是不可预测的。
具体来讲,人们生病后会检索,而传染病会扩散,因此Google那种监测传染病暴发区域以及预测其可能扩散路径的大数据使用方式是极为有效的。在这里反身性并不起太大作用。
但股票就不行,因为你在预测,别人也在预测,买家和卖家的行动又不一致,这就会使股票市场成为混沌系统。究竟怎么样才能用大数据预测到国内这波股票的上涨呢?
同传染病和股票市场相比,电影票房的可预测性则在两者之间。有必然性在支撑,比如基本上很垃圾的电影很难有好的票房,但偶然性影响也很大,你不好预测那个点戳到了人们的那个神经,它突然就变火了。谁能预测《泰囧》的10亿票房呢?所以我的判断是在票房预测上,不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题。
总结来看,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。
监测与预测
在预测上大数据必须面对自己的边界问题,但在监测上大数据的威力是无远弗届的。
我们这个世界的数据化程度一定是越来越高的,当我们在社交网络中活动时,其实就是我们个人在不停数据化的过程,我们的偏好、关系、每日活动等正在源源不断的数据化过程中,如果可穿戴设备、智能家居发展起来,那数据化的东西就会更多。
我在互联网时代的方法论那系列文章里一直坚持这样一种观点:
互联网正在生成一个与现实世界并行的很像黑客帝国的意识空间,而这个意识空间是数据化的。
理论上讲,在这个空间里不存在信息不透明这回事,空间和时间不再成为阻隔信息流动的障碍。所以不管你喜欢不喜欢,在数字化面前每个人正在变成透明人,也就是说100%可监测。
监测与预测间的桥梁是必然逻辑和直觉,直觉依赖于个人才情天分,放在一边不提,主要谈下必然逻辑。有必然逻辑在事情就有了发生的可能性,但不一定发生。这点比较不好理解,我们来看个例子:
我们谈微信的时候更容易聚焦到张小龙打造产品的功力,往往容易忽视马化腾和张小龙才是打造微信的组合。从公开报道来看,当时腾讯内部是有很多团队同时在开发移动IM的,而这种投入很可能是基于“移动互联网才是真的互联网,腾讯必须在移动互联网的IM上占有统治地位”的假设,在这种假设下马化腾又有所谓的灰度理论,所以才有多支团队同时并进。如果没有这类顶层设计,我想更多公司更可能是在移动版QQ上做微创新,进一步掉入创新者的窘境。
如果抽象点来分解这个例子,那我们可以这么讲,移动互联网的发展是可以从大数据上感知的,因为只要做足够的监测,那么就可以从数据上在较早阶段感知到这个趋势。但判断移动互联网是真的互联网则依赖于当事人的眼光格局,再进一步下决定去同时做微信和手机QQ那则是上述逻辑的一个后果。在决定做微信那个时间点,马化腾乃至其他大佬也不知道它一定能成,否则大家一定是别的事情都不干,都专心做微信。但微信确实是移动互联网是真的互联网这一条必然逻辑的一个衍生品,相当于是预测未来的一个后果。这就是大数据、监测、必然逻辑与预测的关系。
结束语
大数据方兴未艾,但在用大数据时最好也考虑下它的能力边界,否则就可能因为它在某个点上失灵而怀疑大数据本身,这就会得不偿失。随着数据化程度的提高,反身性的作用可能会越来越大,作为结果世界会变得越来越像混沌系统,在这样的趋势下,相信上文提到的监测与必然逻辑的结合应该会对如何使用大数据有所帮助。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31