读书笔记 | 大数据时代
大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实现的。我们每天都在利用大数据或被大数据利用,但是我们当中应该没有多少人真正知道大数据时代给我们带来什么改变。这本书主要从大数据带来的思维变革、商业变革、管理变革三个方面来写。我主要会把这本书中的思维变革和商业变革写出来(因管理变革目前我们中大部分人还用不到,所以就先不写),本篇写思维变革、商业变革下篇连载。
本书框架图
思维变革
1.要全体数据、不要样本
在信息处理能力受限的年代,世界需要数据分析,却缺少用来分析所收集数据的工具,所以只能用随机抽样的方式进行数据分析。
但是真正的大数据时代是指不用随机分析法这样的捷径,而采用所有数据的分析方法。通过观察所有数据,来寻找异常值进行分析。
比如:信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点,在这种情况下,异常值是最有用的信息,你可以把他与正常交易情况作对比从而发现问题。
2.要效率、不要精确性
在如今的信息时代。我们掌握的数据库越来越全面,她不再只包括我们手头那一点可怜的数据,而是包括了与这些现象相关的大量甚至全部的数据。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。但是正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。
有时候当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握食物的发展趋势,大数据不仅让我们不再期待准确性,也让我们无法实现准确性。
值得注意的是,错误并不是大数据本身固有的。他只是我们用来衡量、记录和交流数据的工具的一个缺陷。如果说哪一天技术完美无缺了,不精确度的问题就不复存在了。错误不是大数据固有的特性,而是一个需要我们去处理的实际问题,并且可能长期存在。
混杂性不是竭力避免,有的时候可以为我们所用。互联网最火的产品都会表明,不精确性、混杂性要更好点。
比如微信朋友圈:朋友的发动态时间,在一小时之内的会显示多少分钟之前,在一小时以外的就只显示几小时前。
在微信公众号阅读量显示,为什么超过十万以后显示地是100000+,而不是具体数据,因为超过十万以后的数据,我们心中或许就没啥概念了,没有一个参考衡量的标准了,十万已经会让我们觉得这篇文章很厉害了,能达到目的,就没必要精确。
3.要相关关系、不要因果关系
知道是很什么就够了,没必要知道为什么。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。
比如:知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。
相关关系是通过识别关联物来帮助我们分析某一现象,而不是揭示其内部的运作。
注意:即使很强的相关关系也不一定能揭示每一种情况,比如两个事物看上去行为相似,很有可能只是巧合。相关关系没有绝对,只有相似。
通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
比如:如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。
在小数据时代,数据分析专家会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。然后收集与关联物相关的数据来进行分析,以证明假设是否正确。但是由于这是建立在假设的基础上,那么分析结果也是有受偏见影响的可能。
在大数据时代,我们拥有如此多的数据,如此好的计算机能力,所以不再需要人工选择一个关联物或者一小部分相似数据来逐一分析。通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好的了解这个世界。
商业变革
1.数据化—量化一切
首先我们需要明确两个概念就是数字化和数据化
数据化、是指一种把现象转变为可制表分析的量化形式的过程。
数字化、是指把模拟数据转换成0和1表示的二进制码。
计算机的出现带来了数字测量和存储设备,数字化带来了数据化,但是数字化无法取代数据化。
数据化的核心是量化一切,常见的被量化的有文字、方位和沟通。
当文字变成图书,拿电子书为例,未数据化的电子书只能够被展示出来,读者并不能通过搜索关键词被查找到,也不能被分析。
当方位变成数据,就是将地理信息进行,比如百度地图、各种网站的获取位置都是将方位变成数据。
当沟通变成数据,一些社交平台通过添加各种心情表情,来收集我们的心情状态,还有人们的喜好,年龄什么的都可以变成数据。
2.价值—数据创新
不同于物质性的东西,数据的价值不会随着它的使用而减少。数据就像一个神奇的砖石矿,当他的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分隐藏在表面之下。他可以为了同一目标被多次使用,也用于其他目的。这就需要我们选择性的对数据进行创新,下面主要介绍几点数据创新
数据再利用
就是数据在实现了基本用途以后的进一步利用。
比如搜索关键词,基本用途是可以通过消费搜索关键词来定向推送广告,就是我们在淘宝里面搜索关键词以后,会收到猜你喜欢的物品提醒。
而他的再利用:根据客户搜索关键词的流量,来判断哪款产品或哪种颜色会成为爆款。
重组数据
有的时候可能从某一组数据上看不出什么价值,我们需要把他和其他数据进行组合以后,才能利用其价值。
比如,美国房地产网站Zillow.com将房地产信息和价格添加在美国社区地图上,同时还压缩了大量的信息,如社区近期的交易和物业价格,以此来预测区域内具体每套住宅的价值。
可扩展数据
促成数据再利用的方法之一是从一开始就设计它的可扩展性。收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到其各种潜在的二次用途,使其具有扩展性是非常有意义的。
比如:超市的摄像头在一开始的时候只是为了防止小偷,但事实上还可以跟踪商店的客户流和她们停留的位置。可以根据这些信息来设计店面的最佳布局。
数据的折旧值
随着时间的推移,可能一些比较久远的数据就会失去其原有的价值,在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。
比如,十年前你在亚马逊上买了一本书,而现在你已经完全对他不感兴趣了,如果亚马逊继续使用这个数据来向你推荐其他书籍就会有些不合理。
数据废气
就是收集数据中的一些错误值来进行利用。
比如:搜索引擎的输入法,有的时候你会发现你输入的关键词时错误的,但是系统会弹出你想要的正确的结果。这就是数据废气所起的作用。搜素引擎后台会收集每天后台收到的错误关键词和用户最终查找的正确关键词的内容。这样以后一旦出现类似的错误,系统就可以推送正确的内容给用户,匹配度很高。
3.角色定位—数据、技术、思维
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或至少可以收集到大量数据,却不一定有从数据中提取价值或用数据催生创新思想的技能。
第二种是基于技能的公司。他们通常是咨询公司、技术创新或分析公司。他们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。
第三种是基于思维的公司。通过利用大数据思维提出一些创新性指导意见。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16