如何准确又通俗易懂地解释大数据及其应用价值-CDA数据分析师官网

如何准确又通俗易懂地解释大数据及其应用价值

2015-05-12

如何准确又通俗易懂地解释大数据及其应用价值

大数据说到底就是一个大字。到底有多大？拿维基百科上的例子来说，CERN做的LHC（大型強子對撞機）周长27公里，里面一共有1.5亿个传感器，每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据，每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一，那么一年也要积累25 petabytes的数据，相当于25000个1TB的硬盘。

在这些数据里寻找希格斯玻色子的证据，是真正的大海捞针。这么大的数据你给我用Excel算算看？不要说计算，根本连载入内存都不可能。再比如说，Facebook据说拥有500亿以上的用户照片。之前美国波士顿发生了爆炸案，这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯？波士顿马拉松仅运动员就有两三万人，围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张，录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。

再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片，重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心，耗时8小时。如果每张照片按100KB计算，总数据量达到15GB。至少要达到这个级别的数据，才能称得上大数据。下面为照片和重建模型的对比。

如何准确又通俗易懂地解释大数据及其应用价值？如何准确又通俗易懂地解释大数据及其应用价值？
大数据因为大，不仅远远超过人工的处理能力，也远远超过普通台式机的处理能力。只有特定的算法和特别设计的硬件架构才能够有效的处理大数据。简单说来，硬件上要把很多CPU或者很多台式机连起来，算法上采取分而治之的策略。有的数据前后没有关联，特别适合分而治之的方法。而处理互相联系多的数据就比较困难。如果只要寻找嫌犯的脸，可以对每张照片分别处理。如果要考虑连续拍摄的照片有些并没有捕捉到脸，但嫌犯的位置和穿着是相对不变的，这就要考虑照片之间的关系，要分而治之就相对困难一些。

举一个做加法的例子来说明分而治之。比如有两道加法题：34+18和54+39。这两道题目如果两个人分别计算，就比一个人计算要快一倍。这就是分治的优势。但是如果只有一道加法题怎么办？比如两个人要计算34+18，那只好一个人计算个位，一个人计算十位。十位上计算3+1=4，但是还必须考虑个位的进位。所以计算十位的人必须等待计算个位的人给出结果之后，再决定要不要在自己的结果上再加1。为了统一结果一等待，计算速度就变慢了，这就是我们说结果之间存在的关系拖慢计算。

既然大数据处理起来这么困难，为什么还要使用大数据？使用小数据不行吗？这就要说到大数据的应用。所谓机器学习，一般是首先建立一个数据之间关系的模型。然后通过数据来确定模型中的参数。这就是所谓训练。大多数模型都是比较简单的。建模的时候为了简便，往往忽略现实中的很多因素。但是数据多了以后，往往可以弥补模型的简陋。所以数据多是有好处的。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

如何准确又通俗易懂地解释大数据及其应用价值

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...