读书笔记 | 大数据时代
大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实现的。我们每天都在利用大数据或被大数据利用,但是我们当中应该没有多少人真正知道大数据时代给我们带来什么改变。这本书主要从大数据带来的思维变革、商业变革、管理变革三个方面来写。我主要会把这本书中的思维变革和商业变革写出来(因管理变革目前我们中大部分人还用不到,所以就先不写),本篇写思维变革、商业变革下篇连载。
本书框架图
思维变革
1.要全体数据、不要样本
在信息处理能力受限的年代,世界需要数据分析,却缺少用来分析所收集数据的工具,所以只能用随机抽样的方式进行数据分析。
但是真正的大数据时代是指不用随机分析法这样的捷径,而采用所有数据的分析方法。通过观察所有数据,来寻找异常值进行分析。
比如:信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点,在这种情况下,异常值是最有用的信息,你可以把他与正常交易情况作对比从而发现问题。
2.要效率、不要精确性
在如今的信息时代。我们掌握的数据库越来越全面,她不再只包括我们手头那一点可怜的数据,而是包括了与这些现象相关的大量甚至全部的数据。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。但是正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。
有时候当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握食物的发展趋势,大数据不仅让我们不再期待准确性,也让我们无法实现准确性。
值得注意的是,错误并不是大数据本身固有的。他只是我们用来衡量、记录和交流数据的工具的一个缺陷。如果说哪一天技术完美无缺了,不精确度的问题就不复存在了。错误不是大数据固有的特性,而是一个需要我们去处理的实际问题,并且可能长期存在。
混杂性不是竭力避免,有的时候可以为我们所用。互联网最火的产品都会表明,不精确性、混杂性要更好点。
比如微信朋友圈:朋友的发动态时间,在一小时之内的会显示多少分钟之前,在一小时以外的就只显示几小时前。
在微信公众号阅读量显示,为什么超过十万以后显示地是100000+,而不是具体数据,因为超过十万以后的数据,我们心中或许就没啥概念了,没有一个参考衡量的标准了,十万已经会让我们觉得这篇文章很厉害了,能达到目的,就没必要精确。
3.要相关关系、不要因果关系
知道是很什么就够了,没必要知道为什么。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。
比如:知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。
相关关系是通过识别关联物来帮助我们分析某一现象,而不是揭示其内部的运作。
注意:即使很强的相关关系也不一定能揭示每一种情况,比如两个事物看上去行为相似,很有可能只是巧合。相关关系没有绝对,只有相似。
通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
比如:如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。
在小数据时代,数据分析专家会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。然后收集与关联物相关的数据来进行分析,以证明假设是否正确。但是由于这是建立在假设的基础上,那么分析结果也是有受偏见影响的可能。
在大数据时代,我们拥有如此多的数据,如此好的计算机能力,所以不再需要人工选择一个关联物或者一小部分相似数据来逐一分析。通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好的了解这个世界。
商业变革
1.数据化—量化一切
首先我们需要明确两个概念就是数字化和数据化
数据化、是指一种把现象转变为可制表分析的量化形式的过程。
数字化、是指把模拟数据转换成0和1表示的二进制码。
计算机的出现带来了数字测量和存储设备,数字化带来了数据化,但是数字化无法取代数据化。
数据化的核心是量化一切,常见的被量化的有文字、方位和沟通。
当文字变成图书,拿电子书为例,未数据化的电子书只能够被展示出来,读者并不能通过搜索关键词被查找到,也不能被分析。
当方位变成数据,就是将地理信息进行,比如百度地图、各种网站的获取位置都是将方位变成数据。
当沟通变成数据,一些社交平台通过添加各种心情表情,来收集我们的心情状态,还有人们的喜好,年龄什么的都可以变成数据。
2.价值—数据创新
不同于物质性的东西,数据的价值不会随着它的使用而减少。数据就像一个神奇的砖石矿,当他的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分隐藏在表面之下。他可以为了同一目标被多次使用,也用于其他目的。这就需要我们选择性的对数据进行创新,下面主要介绍几点数据创新
数据再利用
就是数据在实现了基本用途以后的进一步利用。
比如搜索关键词,基本用途是可以通过消费搜索关键词来定向推送广告,就是我们在淘宝里面搜索关键词以后,会收到猜你喜欢的物品提醒。
而他的再利用:根据客户搜索关键词的流量,来判断哪款产品或哪种颜色会成为爆款。
重组数据
有的时候可能从某一组数据上看不出什么价值,我们需要把他和其他数据进行组合以后,才能利用其价值。
比如,美国房地产网站Zillow.com将房地产信息和价格添加在美国社区地图上,同时还压缩了大量的信息,如社区近期的交易和物业价格,以此来预测区域内具体每套住宅的价值。
可扩展数据
促成数据再利用的方法之一是从一开始就设计它的可扩展性。收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到其各种潜在的二次用途,使其具有扩展性是非常有意义的。
比如:超市的摄像头在一开始的时候只是为了防止小偷,但事实上还可以跟踪商店的客户流和她们停留的位置。可以根据这些信息来设计店面的最佳布局。
数据的折旧值
随着时间的推移,可能一些比较久远的数据就会失去其原有的价值,在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。
比如,十年前你在亚马逊上买了一本书,而现在你已经完全对他不感兴趣了,如果亚马逊继续使用这个数据来向你推荐其他书籍就会有些不合理。
数据废气
就是收集数据中的一些错误值来进行利用。
比如:搜索引擎的输入法,有的时候你会发现你输入的关键词时错误的,但是系统会弹出你想要的正确的结果。这就是数据废气所起的作用。搜素引擎后台会收集每天后台收到的错误关键词和用户最终查找的正确关键词的内容。这样以后一旦出现类似的错误,系统就可以推送正确的内容给用户,匹配度很高。
3.角色定位—数据、技术、思维
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或至少可以收集到大量数据,却不一定有从数据中提取价值或用数据催生创新思想的技能。
第二种是基于技能的公司。他们通常是咨询公司、技术创新或分析公司。他们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。
第三种是基于思维的公司。通过利用大数据思维提出一些创新性指导意见。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30