3000字概括《大数据时代》
大数据 引起了变革
当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行数据分析,获得巨大价值的产品和服务,或深刻的洞见。
1、震人心魄的数据
2003年,人类第一次破译人体基因密码的时候,辛苦工作10年才完成了三十亿对碱基对的排序;大约10年后,世界范围内的基因仪每15分钟就可以 完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是邮件里在数学模型和算法之上的计算机程序自动完成的。
在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据;在2000年时,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。
2、大数据的精髓
大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制);
B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所 以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方 向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
3、大数据的核心是预测
大数据的核心就是预测,它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。大数据不是要教机器人像人一样思考,而是把数学算法运用到海量的数据上来预测事情发生的可能性。
不是随机样本,而是全体数据
历史上,因为记录、储存、分析数据的工具都不够好,为了让分析变得简单,我们选择了把数据量减少,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。
1、传统抽样的精确性
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大,大致原因是当样本数量达到某个值后,我们从新个体身上得到的信息会越来越少,这与经济学中的边际效应类似。
2、 随机采样的问题
随机采样有一个很大的问题:人们只能从随机采样中得出事先设计好的问题的结果,调查得出的数据不可以重新分析以实现计划之外的目的,而且一旦采样过程中存在任何偏见,分析结果就会相去甚远。
3、样本=总体
采样的目的就是用最少的数据得到最多的信息,当我们可以获得海量数据的时候,它就没有什么意义了;生活中真正有趣的事情经常藏匿在细节之中,而采样分析却无法捕捉到这些细节(因为采样不能得到计划之外的东西);大数据建立在掌握所有数据,至少是尽可能多的数据的基础上,所以我们就可以正确地考察细节 并进行新的分析。
不是精确性,而是混杂性
执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的,如果不能接受混乱,剩下的95%的非结构化数据都无法被利用。
1、小数据时代的精确性
在“小数据时代”,人们收集、处理数据的能力有限,对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量(收集信息的有限意味着细微错误 会被放大,甚至有可能影响整个结果的准确性)。人们创造了很多精确的系统,这些系统试图让我们接受一个世界困乏而规整的惨象——假装世间万物都是整齐地排 列的;事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。
2、 我们要的是概率
我们总是为了一个“答案”而活着,精确性似乎一直是我们生活的支撑,但认为每个问题只有一个答案的想法是站不住脚的。“一个唯一的真理“的存在是不 可能的,而且追求这个唯一的真理是对注意力的分散。大数据也许是拯救我们的关键方法:大数据通常用概率说话,而不是板着“准确无疑”的面孔。
不是因果关系,而是相关关系
在大数据时代,我们不必知道现象背后的原因,而是要让数据自己“发声”。我们不再一味追求人们为什么这么做,知道人们为什么这么做可能是有用的,但这个问题目前并不是很重要,重要的是我们能通过大数据分析出人们的相关行为。
1、相关关系
相关关系的核心是量化两个数据值之间的数理关系:相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加;相关关系弱就意味着当一个 数据值增加时,另一个数据值几乎不会发生变化。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。相关关系没有绝 对,只有可能性。
2、人们的直接目的就是寻找因果关系
人们的直接愿望就是了解因果关系,我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考。以前我们用实验来证明因果关系,它是通 过是否有诱因来分别观察所产生的结果是不是和真实情况相符。但是,凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每 一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受到因果关系的 控制了——这显然是不正确的。
3、 相关关系和因果关系并不矛盾
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础,通过找出可能相关的事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因 果关系的话,我们再进一步找出原因。在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层 次研究因果关系,找出背后的“为什么”。在小数据时代,我们会假象世界是怎么运作的,然后通过收集和分析数据来验证这种假象;在大数据时代,我们会在数据 的指导下探索世界,不再受限于各种假想;我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。
A.大量的数据意味着“理论的终结”:用一系列的因果关系来验证各种猜测的传统研究范式已经不实用了,如今它已经被无需理论指导的相关关系研究所取代;
B.现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具,而且只要数据足够,就能说明问题,如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就迎刃而解了;
C.“理论的终结”:所有的普遍规则都不重要了,重要的是数据分析,它可以揭示一切问题;但大数据并不意味着理论已死,因为大数据就是在理论的基础上形成的。
大数据时代的商业变革
在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了;行业并不会消失,但是他们必须与数据表达的信息进行博弈。
1、 数据化:一切皆可量化
大数据的核心发展动力来源于人类测量、记录和分析世界的渴望。为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。如今我们经常把“数字化”和“数据化”这两个概念搞混,但是对这两个概念的区分实际上非常重要:
A.数据化:一种把现象转变为可制表分析的量化形式的过程;
B.数字化:把模拟数据转换成0和1表示的二进制码;
数字化带来了数据化,但是数字化无法取代数据化;数字化是把模拟数据变成计算机课读的数据,和数据化有着本质的不同。
2、当方位变成了数据
1978年见证了一个伟大的转变,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功,通过与技术手段的融合,全球定位系统能够快速、相对 低价地进行地理定位,而且不需要任何专业知识。地理位置信息汇集起来,可能会揭示事情的发展趋势;位置信息一旦被数据化,新的用途就犹如雨后春笋般涌现出 来,而新价值也会随之不断催生。
3、 当沟通变成数据
社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为,这些行为难以跟踪,特别是在广大的社区和其中的子人群环境中。
A.Facebook将关系数据化——社交关系在过去一直被视作信息而存在,但从未被正式界定为数据,直到Facebook“社交图谱”的出现;
B.Twitter通过创新,让人们能轻易记录以及分享他们零散的想法,从而使情绪数据化得以实现。
4、“取之不尽,用之不竭“的数据创新
尽管数据长期以来一直是有价值的,但通常只是被视作附属企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别,但在大数据时代,所有数据都是有价值的。我们的时代,数据收集不再存在固有的局限性,由于存储成本的大幅下降,保存数据比丢弃数据更加容易,这使得以较低成本获得更多 数据的可能性比以往任何时候都大。不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理,信息不会像其他物质产品一样随着使用而 有所损耗。数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可用于其他目的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31