大数据爆发可能性:基础要件已经具备 从数据源到数据应用形成完整生态
国内大数据市场爆发的核心要件已经具备。 基于对影响产业发展的核心因素的分析, 立足当前时点, 我们判断国内大数据产业已经具备规模爆发的可能性:在线数据爆发式增长,数据源可获得性、流动性明显改善;云计算、分布式架构等技术推动大数据相关基础技术设施趋于完善; 大数据分析应用领域明星案例不断增多, 市场对于大数据价值认可度持续提升;国家宏观政策、资本市场热情为大数据产业的发展提供强劲支撑。
全球大数据市场发展路径为国内市场提供良好的参考。 据 Wikibon 数据,全球大数据市场规模在 2015 年突破 400 亿美元,产业发展初具规模,同时全球市场发展具有如下典型特征:
( 1 )形成多层次、 融合的大数据来源,包括企业内数据、商业数据以及独立第三方机构数据源。
( 2)基础软件模块整体空间有限,市场收入主体主要由数据分析服务和基础硬件模块构成,开源工具引入使得软件模块整体空间非常有限。
( 3)技术、行业认知驱动新兴数据分析企业崛起,以 palantir、 splunk 为代表的企业依托突出的技术,以及对特定行业的深刻认知,迅速打破传统 IT 企业的壁垒,并在特定细分行业领域占据主导地位。
数据源:数据规模爆发式增长,数据可获得性、流动性持续改善。 根据 IDC 数据, 2011年全球数据总量约为 1.82ZB,是 2008 年的近 4 倍,中投顾问预计 2020 年国内数据总量将达到 38.59ZB,远超过目前的全球数据总量,数据量正呈现爆发式增长。从数据的可获得性、流动性来看,互联网的发展创造了大量的线上数据,同时互联网和传统行业的融合,以及 IOT时代的到来,数据的可获得途径正在被持续拓宽,互联网加速数据间的流动和融合。
基础技术:计算、存储、分析技术不断成熟。 在传统的数据分析时代,数据首先通过ORACLE、 DB2 等数据库集中存储形成结构化数据,并通过 BI 工具,借助传统的数据挖掘算法进行分析和展现。进入大数据时代,我们面临数据量大、 结构化数据占比低等突出问题,传统的 IT 架构、分析算法已经难以满足需求。 2003~2004 年间, Google 公司在其对外发表的两篇论文中提出了 GFS( Google File System)、 MapReduce 两个核心概念,奠定了分布式文件存储系统以及分布式计算模型的理论基础, 2006 年分布式计算和存储框架 hadoop项目被提出,后续围绕 hadoop 的技术生态不断发展, 大数据相关计算、存储、分析技术不断成熟和完善。
分析应用:大数据的价值正在获得持续认可。 伴随着企业和机构对大数据重视度的提升,大数据的商业价值正在逐步显现,各行业积极探索和大数据相结合的应用场景,例如 Palantir在协助美国政府进行反恐、国土安全等领域的突出表现,国内互联网公司借助大数据进行的精准广告投放等。根据德克萨斯州大学学者的研究统计, 如果企业数据使用率提高 10%,各行业效益将提升 17%-49%不等。
政策&资本:政府大力推进,资本热情持续高涨。 近一年来,中央政府强力推动数据开放和大数据运用, 国务院常务会议 10 次提及“互联网+” 及大数据战略, 强调提高数据的开放程度和搭建数据共享平台。基于对市场前景的一致预期,国内大数据行业投资热度不断上升,仅 2015 年在国内融资的大数据创业公司就有超过 50 家,企业获得投资额预计超过 20亿美元,较 2014 年大幅增加。
大数据业务成功运作依赖于多个环节的共同参与和协调,我们将大数据产业链分成如下环节:上游的数据源,中间的数据存储、 计算,以及下游的数据分析应用。 纵观全球市场,根据 wikibon 统计数据,到 201 7 年,全球大数据市场规模将突破 500 亿美元,美国、西欧等传统 IT 发达地区目前已经走在前列,在下文中,我们将通过对全球大数据市场的回顾和分析,以试图探究全球大数据产业发展的内在逻辑以及对中国市场的有益借鉴。
产业全景:贯穿大数据全生命周期。 经历近 20 年的理论准备和产业发展, 目前全球市场已经形成了从数据源采集、数据处理到数据分析应用的完整产业生态:
数据源。 数据类型上,包括传统数据库存储的结构型数据以及 cloudera 等存储的半结构化、 非结构化数据,数据的来源上,包括销售、营销等企业内和商业数据,也包括从事数据整合的第三方机构和组织所贡献的数据。
数据处理。 主要包括数据的 ETL(抽取、转化、加载)、存储、计算等过程,涉及数据的切割、融合等动作,大量的中小企业通过推出特定的插件模块、基础工具不断推动整个技术生态的繁荣。
数据应用。 在该领域既包括传统的 IT 信息企业、 统计分析企业,也包括新兴的大数据公司,比如 palantir、 inrix 等,这些企业针对不同的行业、应用场景纷纷推出相应的大数据解决方案。
产业模块:专业服务模块表现最为优异 。如果我们将大数据的产业收入来源简单分类为基础硬件、 基础软件和专业服务三个模块,根据 wikibon 统计数据, 基础硬件模块、专业服务的市场表现明显优于基础软件模块:
基础硬件。 计算、存储两个子模块显示出强劲的增长动力,且整体份额占比极高,显示出云计算和大数据两个子产业较强的相互拉动作用。
基础软件。 主要由 hadoop 计算框架和数据管理两个子模块构成,整体规模非常有限,且增长平缓, 整个数据管理模块的收入包括传统的数据软件产品收入( ORACLE、DB2 等)和 NoSQL 商业化产品收入。
专业服务。 为增长最为快速、 份额占比最高的子模块,整体持续保持高速增长。
Wikibon 统计了 2013 年全球大数据领域收入排名 TOP 30 的公司,其中不仅包括 IBM、 HP 等传统综合 IT 企业,也包括 palantir、 inrix 等专注于特定领域数据分析的新兴企业,我们尝试对该 30 家公司进行归类分析,并探索各类别企业背后的一些共性的因素。
传统 IT 企业。 以 IBM、 HP、 dell、 oracle 等企业为代表,该类企业具有完整的软、硬件产品线,并通过既有产品线、 hadoop 等开源计算框架的融合,迅速构建出综合性大数据解决方案。
传统互联网企业。 以 google、 amazon 为代表, 本身具有雄厚的技术和资金支持,且数据源丰富,自身业务对大数据具有较强的需求。
传统咨询公司。 以埃森哲、 BCG 等传统咨询公司为代表,作为咨询业务的延伸,依赖于对行业的理解,面向企业输出大数据实施方案以及承担相应的数据分析职能等。
新兴大数据企业。 以 palantir、 splunk 等为代表,依赖于融合的计算框架和强大的技术实力,并叠加对特定行业的深入理解, 提供相应的数据分析服务,典型的技术、行业认知驱动。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10