读书笔记 | 大数据时代
大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实现的。我们每天都在利用大数据或被大数据利用,但是我们当中应该没有多少人真正知道大数据时代给我们带来什么改变。这本书主要从大数据带来的思维变革、商业变革、管理变革三个方面来写。我主要会把这本书中的思维变革和商业变革写出来(因管理变革目前我们中大部分人还用不到,所以就先不写),本篇写思维变革、商业变革下篇连载。
本书框架图
思维变革
1.要全体数据、不要样本
在信息处理能力受限的年代,世界需要数据分析,却缺少用来分析所收集数据的工具,所以只能用随机抽样的方式进行数据分析。
但是真正的大数据时代是指不用随机分析法这样的捷径,而采用所有数据的分析方法。通过观察所有数据,来寻找异常值进行分析。
比如:信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点,在这种情况下,异常值是最有用的信息,你可以把他与正常交易情况作对比从而发现问题。
2.要效率、不要精确性
在如今的信息时代。我们掌握的数据库越来越全面,她不再只包括我们手头那一点可怜的数据,而是包括了与这些现象相关的大量甚至全部的数据。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。但是正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。
有时候当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握食物的发展趋势,大数据不仅让我们不再期待准确性,也让我们无法实现准确性。
值得注意的是,错误并不是大数据本身固有的。他只是我们用来衡量、记录和交流数据的工具的一个缺陷。如果说哪一天技术完美无缺了,不精确度的问题就不复存在了。错误不是大数据固有的特性,而是一个需要我们去处理的实际问题,并且可能长期存在。
混杂性不是竭力避免,有的时候可以为我们所用。互联网最火的产品都会表明,不精确性、混杂性要更好点。
比如微信朋友圈:朋友的发动态时间,在一小时之内的会显示多少分钟之前,在一小时以外的就只显示几小时前。
在微信公众号阅读量显示,为什么超过十万以后显示地是100000+,而不是具体数据,因为超过十万以后的数据,我们心中或许就没啥概念了,没有一个参考衡量的标准了,十万已经会让我们觉得这篇文章很厉害了,能达到目的,就没必要精确。
3.要相关关系、不要因果关系
知道是很什么就够了,没必要知道为什么。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。
比如:知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。
相关关系是通过识别关联物来帮助我们分析某一现象,而不是揭示其内部的运作。
注意:即使很强的相关关系也不一定能揭示每一种情况,比如两个事物看上去行为相似,很有可能只是巧合。相关关系没有绝对,只有相似。
通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
比如:如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。
在小数据时代,数据分析专家会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。然后收集与关联物相关的数据来进行分析,以证明假设是否正确。但是由于这是建立在假设的基础上,那么分析结果也是有受偏见影响的可能。
在大数据时代,我们拥有如此多的数据,如此好的计算机能力,所以不再需要人工选择一个关联物或者一小部分相似数据来逐一分析。通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好的了解这个世界。
商业变革
1.数据化—量化一切
首先我们需要明确两个概念就是数字化和数据化
数据化、是指一种把现象转变为可制表分析的量化形式的过程。
数字化、是指把模拟数据转换成0和1表示的二进制码。
计算机的出现带来了数字测量和存储设备,数字化带来了数据化,但是数字化无法取代数据化。
数据化的核心是量化一切,常见的被量化的有文字、方位和沟通。
当文字变成图书,拿电子书为例,未数据化的电子书只能够被展示出来,读者并不能通过搜索关键词被查找到,也不能被分析。
当方位变成数据,就是将地理信息进行,比如百度地图、各种网站的获取位置都是将方位变成数据。
当沟通变成数据,一些社交平台通过添加各种心情表情,来收集我们的心情状态,还有人们的喜好,年龄什么的都可以变成数据。
2.价值—数据创新
不同于物质性的东西,数据的价值不会随着它的使用而减少。数据就像一个神奇的砖石矿,当他的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分隐藏在表面之下。他可以为了同一目标被多次使用,也用于其他目的。这就需要我们选择性的对数据进行创新,下面主要介绍几点数据创新
数据再利用
就是数据在实现了基本用途以后的进一步利用。
比如搜索关键词,基本用途是可以通过消费搜索关键词来定向推送广告,就是我们在淘宝里面搜索关键词以后,会收到猜你喜欢的物品提醒。
而他的再利用:根据客户搜索关键词的流量,来判断哪款产品或哪种颜色会成为爆款。
重组数据
有的时候可能从某一组数据上看不出什么价值,我们需要把他和其他数据进行组合以后,才能利用其价值。
比如,美国房地产网站Zillow.com将房地产信息和价格添加在美国社区地图上,同时还压缩了大量的信息,如社区近期的交易和物业价格,以此来预测区域内具体每套住宅的价值。
可扩展数据
促成数据再利用的方法之一是从一开始就设计它的可扩展性。收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到其各种潜在的二次用途,使其具有扩展性是非常有意义的。
比如:超市的摄像头在一开始的时候只是为了防止小偷,但事实上还可以跟踪商店的客户流和她们停留的位置。可以根据这些信息来设计店面的最佳布局。
数据的折旧值
随着时间的推移,可能一些比较久远的数据就会失去其原有的价值,在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。
比如,十年前你在亚马逊上买了一本书,而现在你已经完全对他不感兴趣了,如果亚马逊继续使用这个数据来向你推荐其他书籍就会有些不合理。
数据废气
就是收集数据中的一些错误值来进行利用。
比如:搜索引擎的输入法,有的时候你会发现你输入的关键词时错误的,但是系统会弹出你想要的正确的结果。这就是数据废气所起的作用。搜素引擎后台会收集每天后台收到的错误关键词和用户最终查找的正确关键词的内容。这样以后一旦出现类似的错误,系统就可以推送正确的内容给用户,匹配度很高。
3.角色定位—数据、技术、思维
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或至少可以收集到大量数据,却不一定有从数据中提取价值或用数据催生创新思想的技能。
第二种是基于技能的公司。他们通常是咨询公司、技术创新或分析公司。他们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。
第三种是基于思维的公司。通过利用大数据思维提出一些创新性指导意见。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20