大数据的发展历程,CDA数据分析师总结如下(资料来源于各大期刊,网页,博客等):
2011 年,“大数据”与“云计算”的概念火爆时下,从“大数据创新”—“大数据噱头”—“大数据忽悠”—“大数据落地”—“大数据政策”,可见,一直以来,有人利用大数据技术创造了巨大价值,而有些人却运用大数据概念进行了炒作,有些人依然盲目跟风。大数据究竟是好是坏?国内经过了十来年年数据分析行业积累,三年大数据技术的探索,随着各大互联网企业相继推出大数据产品,国家陆续制定报道大数据政策并投资建设大数据产业园,人们的思想和企业的决策更接地气,现已基本达成了共识:大数据行业前路—光明璀璨!
大数据发展史:
1964:哈里·J·格雷和亨利·拉斯顿发表《应对信息爆炸的技巧》
1971年:亚瑟·米勒《侵犯隐私》
1975年:日本邮电实施“信息流普查”计划
1980年:I·A·特詹姆斯兰德,IEEE 会提出“数据扩展至任何可用空间”
1981年:匈牙利中央统计办公室实施“以比特为单位计量信息量”
1983年:伊契尔·索勒·普尔发表《追踪信息流》
1986年:哈尔·B·贝克发表《用户真的能够以今天或者明天的速度吸收数据吗?》
1997年:美国计算机学会的数字图书馆中《为外存模型可视化而应用控制程序请求页面调度》的文章第一次使用“大数据”。
1998年:K·G·科夫曼和安德鲁·奥德里科发表《互联网的规模与增长速度》
1999:《美国计算机协会通讯》刊登《千兆字节数据集的实时性可视化探索》第一次使用“大数据”术语。
2000年:彼得·莱曼与哈尔·R·瓦里安发表《信息知多少?》, “数字统治”。
2001年:道格·莱尼发布《3D数据管理:控制数据容量、处理速度及数据种类》
2005年:蒂姆·奥莱利在《什么是Web2.0》中指出“数据将是下一项技术核心”
2007年:《膨胀的数字宇宙:2010年世界信息增长预测》预测2010年达到了1,200EB,2011年增长到了1,800EB
2008年:预测2015年美国IP流量将达到1ZB,IP流量将每两年翻一番”
但这并不是每个人、每个企业都能短期实现的,想要成为大数据分析师,首先要成为接地气的数据分析师。从政府到实业到互联网,数据分析现已运用于各个行业。
(徐刚图)
2009年:《信息知多少?2009年美国消费者报告》研究发现,2008年“美国人消费了约1.3万亿小时信息,《信息知多少?2010年企业服务器信息报告》表明世界上所有的公司平均每年处理63TB信息
2010年:肯尼斯·库克尔发表《数据,无所不在的数据》
2011年:麦肯锡《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,大数据从此引爆
2011年:,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
2012年:维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》风靡全球
2012年:瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact)
2012年3月:美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》
2012年4月:美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司
2012年7月:联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民
2013年:我国“大数据元年”诞生
2014年:我国首个大数据交易行业规范—《中关村数海大数据交易平台规则》出台。
2014年4月:世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》
2014年5月:美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》
什么是大数据:
大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。
作者认为具有以下五大特征(4V+1O)的数据才称之为大数据,即:
数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。0
类型繁多(Variety)。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低(Value)。第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
速度快时效高(Velocity)。第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。
关于大数据特征方面,特别要强调的一点是数据是在线的,因为很多人认为数据量大就是大数据,往往忽略了大数据的在线特性。数据只有在线,即数据在与产品用户或者客户产生连接的时候才有意义。如某用户在使用某互联网应用时,其行为及时的传给数据使用方,数据使用方通过某种有效加工后(通过数据分析或者数据挖掘进行加工),进行该应用的推送内容的优化,把用户最想看到的内容推送给用户,也提升了用户的使用体验。
大数据相关技术的发展
大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式,大数据技术的发展可以分为六大方向:
(1)在大数据采集与预处理方向。这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage)。
(2)在大数据存储与管理方向。这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数据库相关技术的发展正在有效的解决这些方面的问题。在大数据存储和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数据存储与处理的发展。
(3)大数据计算模式方向。由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop)、图计算(如Pregel)和内存计算(如Hana),而这些计算模式的混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。
(4)大数据分析与挖掘方向。在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的R Hadoop版、基于MapReduce开发的数据挖掘算法等等。
(5)大数据可视化分析方向。通过可视化方式来帮助人们探索和解释复杂的数据,有利于决策者挖掘数据的商业价值,进而有助于大数据的发展。很多公司也在开展相应的研究,试图把可视化引入其不同的数据分析和展示的产品中,各种可能相关的商品也将会不断出现。可视化工具Tabealu 的成功上市反映了大数据可视化的需求。
(6)大数据安全方向。当我们在用大数据分析和数据挖掘获取商业价值的时候,黑客很可能在向我们攻击,收集有用的信息。因此,大数据的安全一直是企业和学术界非常关注的研究方向。通过文件访问控制来限制呈现对数据的操作、基础设备加密、匿名化保护技术和加密保护等技术正在最大程度的保护数据安全。
互联网的发展是大数据发展的最大驱动力0
截至 2014 年 6月,我国网民规模达 6.32亿,较 2013年底增加1442 万人,互联网普及 46.9%,即接近一半的中国人在使用互联网。互联网的增长速度超越了很多人的预期:4年前即2010年6月,互联网普及率为31.8%,而仅经历了四年,互联网的普及率增加了超过15%。
更为重要的是,CNNIC的数据还显示,截至2014年6月,我国网民上网设备中,手机使用率达83.4%,首次超越传统PC整体使用率(80.9%),手机作为第一大上网终端设备的地位更加巩固,手机使得上网变得更加随时随地,手机上网更加渗透到人们的日常工作和生活中。
因此,互联网普及使得网民的行为更加多元化,通过互联网产生的数据发展更加迅猛,更具代表性。互联网世界中的商品信息、社交媒体中的图片、文本信息以及视频网站的视频信息,互联网世界中的人与人交互信息、位置信息等,都已经成为大数据的最重要也是增长最快的来源。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12