大数据不是“最正确”，而是“最可能”-CDA数据分析师官网

大数据不是“最正确”，而是“最可能”

2015-03-08

大数据不是“最正确”，而是“最可能”

　这两年大数据的发展速度令人惊讶，深究起来似乎要感谢商家们不遗余力地“宣传”，让大数据终于落入凡间，然而，聚光灯之外的大数据又是怎样的呢？
　　你真的懂得大数据吗?
　　仔细想想，你真的懂得大数据吗?笔者发现很多人其实都是道听途说，一知半解。最近 RADICA DATA LAB 早前进行“大数据市场应用调查”，表示教育水平更高者更熟悉大数据。
　　大数据其实并不是甚么新奇奥秘的玩意，说穿了它就只是 Found Data ，将零散杂乱的各种数据统合分析，从而演算出某些结论、推测以及反应。昔日的数据库是被动的，它要求使用者逐一回馈，像是填写各项问卷、收集技术样本等等。
　　“最可能的答案”而非“最正确的答案”
　　不论是收集过程、数量以及分析数据都需要花费大量时间，而且往往是针对一些特定主题及目的，数据亦不够全面。然而由于现在电脑及手机的普及，以及网络通讯的流行，实现新的数据收集方式：将大量“数位化资讯”进行演算分析从而“数据化”。即使是普通人也会听闻及发现，为什么手机会知道自己的喜好，搜索时都是将自己常去的网站排名靠前，显示的广告都是自己有兴趣的，这就是大众所感知到的“大数据”如何影响自己。
　　大数据有别过去收集数据的方式，它不需要刻版而特定的数据，纵使再零碎不全，都一律交由电脑收集及识别。大众日常于网络上做的每一步活动，都有纪录下来，让有关方面可以依据需要分析用户个人喜好、居住地区、考虑条件、特定浏览时间等等提供“最可能的答案”，而非“最正确的答案”。
　　大数据重视关联
　　大数据是违反科学的：科学讲求精确，它却讲求模糊。科学讲求因果，它只重视关联。科学只纪录有用的数据，它却是所有数据都有价值。早于 20 世纪 20 年代 B.Russell 就提出过有关的论文，之后 1965 年 L.A.zadeh 发表模糊集合理论，正式奠定基础。模糊理论实际上是模糊集合、模糊关系、模糊逻辑、模糊控制、模糊量测等理论的泛称。
　　过去人类尤其是西方科学重精确轻模糊，胡适亦曾撰文《差不多先生传》，[大数据魔方]崇尚西方学风的他们抨击讽刺中国人特有的“近似推理( Approximation reasoning )”：缺乏科学精神，凡事模棱两可，只要差不多就好。讽刺的是不出数十年，西方科技发展就要学习差不多先生，追求不明确与模糊概念。事实上，模糊理论应用最有效最广泛的领域就是模糊控制。模糊控制出人意料的解决了传统西方理论逻辑无法解决或难以解决的疑难，并取得了一些惊人的成效：大数据就是其中的佼佼者。
　　大数据未必百分百正确，但又合乎一般人理解的范围
　　例如“青年”这个概念，它的内涵大家都清楚明白，但是什么样的年龄阶段内的人是青年，恐怕大家莫衷一是，因为在“青年”这个概念中没有一个清晰确定的边界与外延，这就是模糊概念。人们在认识模糊性时往往带有主观性，每个人对模糊事物的认知不可能完全相同。我们询问一千人他们认知中“年青”的年龄范围，那么我们可能得到一千个不同的答案。尽管如此，当我们用模糊统计的方法对海量数据进行分析时，答案又具有一定的规律性。
　　大数据就是以相近的原理运作，假设我们要求电脑在甲城市报告“低收入青年的数量”，这里所说的“低收入”、“青年”都是模糊概念，过去的统计学要先求出“何谓低收入”“何谓青年”的“精确范围”然后才能进行下一步的统计：你要先告诉电脑某个薪金以下是低收入，哪个年龄阶层是青年，然后在资料库指定栏位找符合的条目。然而在大数据时代下，电脑能通过模糊概念去分析判断，演算法会自己跑自己分析“低收入”及“青年”大概的范围，将相关的数据条列出来。它未必百分百正确，但又合乎一般人理解的范围。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

大数据不是“最正确”，而是“最可能”

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...