观察大数据行业的整体生态结构
作为该系列的开篇文章,本期我们将从宏观的角度带你观察大数据行业的整体生态结构,对大数据采集、数据的分布式存储与处理,以及在此基础之上的数据分析、可视化和在众多行业中的应用进行概述。其后的每篇文章我们都会挑选大约5个行业的数十家典型公司进行详细介绍,并会对其中一个重点行业进行逻辑的梳理与详细案例的剖析。那么首先我们就来说说大数据技术是如何产生的?
早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为 “第三次浪潮的华彩乐章”,这标志着人们首次对海量数据所能够产生的价值有了初步的了解。
但由于连接方式的局限,长期以来人们对于数据的应用大多以企业内部的商业智能为主,随着互联网、移动互联网的普及,企业终于能够直接与用户产生链接并获得大量的用户行为与消费等数据,大数据产业应用的轮廓才渐渐清晰。
2000年初Google为了实现对大量网页的信息抓取、存储,并完成索引的建立及排序功能,同时又希望降低硬件采购成本而逐渐摸索出了利用普通物理机实现的分布式存储、计算体系。这一技术以MapReduce及GFS而为人所熟知,借此大数据得以分布存储在多个数据库中,并进行大规模并发处理,解决了以往单一计算机存储能力不够,计算时间过长而不具备实用性的问题。
依据2003年底Google所发布的论文,前雅虎工程师开发出了类似的分布式存储计算技术Hadoop,随后围绕Hadoop产生了庞大的生态体系,逐渐使大数据基础架构日臻完善。
Hadoop功能包括从数据采集、存储、分析、转运、再到页面展示,完整涵盖了整个流程。例如HDFS实现了数据的分布式存储,HBase负责实现数据库的功能,Flume执行对数据的收集,Sqoop能够对数据进行转移、治理, MapReduce可以通过算法实现分布式计算,Hive则做数据仓库,Pig做数据流处理,Zookeeper实现了各节点间的反馈收集与负载平衡服务,Ambari能够让管理员了解架构整体的工作运行情况。
Hadoop生态技术架构
而随着技术的发展,一些适应独特应用场景的数据库、计算处理等软件也越发丰富,例如非结构化数据库MongoDB就因为其较为强大的条件查询功能以及灵活的数据结构获得了广泛的应用;Spark则将Hadoop中的存储介质替换为闪存,而获得了百倍处理速度的增长,Databricks Cloud就是这一架构下的产品化服务。
除此之外大数据生态中还存在着很多的技术发展路径,其中MPP技术主要还是以关系型数据库为主和Hadoop技术目标类似,都为了将数据切分、独立计算后再汇总。相对于SQL on Hadoop,MPP具有数据优化程度高、计算速度快,擅长被用于进行交叉分析等优点,适合企业进行数据分析使用,但其扩展性相对Hadoop来说较弱,一般在10个节点以上便丧失了计算优势,并且由于非开源架构导致其对特定硬件依赖程度较高。
采用MPP存储模式的代表性公司有Teradata,能够通过进行企业数据分析帮助员工减轻大数据处理的精力消耗与费用成本,使企业能够更加专注于业务运营。在传统数据库公司与意图进入数据库市场的企业服务公司(例如SAP)掀起的收购热潮中,Teradata是目前市场仅存的几家大型独立数据分析公司之一。
2011年麦肯锡发布了一份题为“Big Data: The Next Frontier for Innovation, Competition and Productivity”的报告,里面提到美国拥有1000人以上规模的公司平均存储了超过200T的数据,如果对数据进行价值挖掘将激发很多行业及公司的潜力,这一报告标志了商业领域大数据热潮的开端,也使企业服务软件成为了大数据最初的数据源。
随着存储及计算能力的加强和国内大数据产业的兴起,部分从业者在看到行业巨大前景的同时也意识到了国内数据资源的缺乏,由于民生、电信、交通、电力等具有很高价值的数据都掌握在政府及大型国企中并不开放,如何获取数据源成为了比如何提升数据处理方法更大的问题。
目前国内能够进行脱敏并使用的市场数据的来源主要还是集中在手机、PC等单一渠道与场景中,TalkingData、友盟,以及艾瑞、易观等数据分析及咨询机构很大程度上依赖着这些资源,却也被这些资源所局限。而由于政府数据的敏感性,仅有少数机构能够对接政府数据资源。因此预计随着对数据需求的日益强烈以及数据资源价值被渐渐接受,政府数据资源将会成为数据源的重要组成部分。
而更大范围的数据采集工作将会依托于物联网领域。我们在《即将被281亿个传感器包围,你却还没弄懂物联网技术?》中曾讲到,预计2020年我们将会被281亿个传感器包围,本月27号中国联通也宣布截至目前其物联网联通数量已超过5000万个。可以预见的是,在消费者视角内,未来衣食住行等方方面面都将会配备物联网设备实时采集数据,而采集来的数据将会让商家提供更优质、甚至是定制化的服务,形成双赢。而在工业领域,物联网所采集的大数据也将发挥很大的作用,形成良性循环。
同样随着数据样本与采集渠道的丰富,针对数据采集过程、数据转换与传送和数据存储环节的服务也已经有了很大的发展,Informatica及Mulesoft就是多渠道数据的集成与数据治理行业中的代表性企业。
在有了足够的存储与计算能力,并获得了大量的数据后,数据分析产业的发展水到渠成。目前通用性的数据分析行业,主要有数据分析、数据分析可视化、大数据检索,以及延伸出的数据服务平台、商业智能分析及大数据预测与咨询这6大类业务。
数据分析的内容将会在第二及第三篇文章中详细介绍,今天仅介绍一下数据分析的整体情况,及未来可能的发展方向。
大数据分析的出现,对企业而言最大的价值就是能够将大量沉淀的用户行为数据、消费数据、企业服务软件中的数据进行整合,并通过对这些数据的分析来优化产品设计、价格的制定和销售方法的提升,同时降低企业内部运转的成本提高运营效率,例如Pentho通过抓取企业服务软件(主要为SAP)中的各类数据并挖掘及分析,最终能够帮助企业节约大量的报表制作时间,并让管理者能够实时看到企业的运行情况。
同样对于电信、电力以及交通等专业领域的企业来说,通过收集用户数据,可以分析并预测未来的需求,提前对价格进行实时智能调节,并合理分配负载,从而实现利润的最大化并保证运行的安全。
而对舆情数据的分析能够帮助企业及时了解市场情绪,并快速迭代自己的产品与服务,对于金融企业来说也可以快速获知最新动态避免因为信息不对称而暴露于风险中。例如Datameer提供的数据分析引擎就能够实时监测公共消息,检测其语言和传播方式,使用户能够早于媒体报道获得最新资讯,并通过可视化的方式使用户轻松快速上手。
大数据可视化,则是建立在大数据分析之上的,让人们能够更加便捷的理解数据分析结果的手段。大多数提供数据可视化业务的公司都将其作为对数据分析的延伸业务,例如Bottlenose 在进行数据分析自动化业务的同时,提供对社交媒体分析的“声纳图”,能够让用户对复杂的关系及逻辑线条一目了然,提升了用户对其数据分析业务的采纳程度。
预计随着数据分析手段与方法的不断升级,数据的可视化工作将成为重点方向,将日益复杂化的数据分析结果与人相连接将会面临技术不断的挑战。
大数据技术已经被视为了未来经济生活中的基础设施,这意味着几乎全部行业都能够在大数据分析技术之上获得经济效率的提升。星河研究院此次将大数据应用的研究范围覆盖到了20多个行业,包含电子商务、媒体营销、物流、企业服务、教育、汽车、金融科技等诸多产业,这一部分行业与公司的介绍将会放在第四到第七篇文章中。
在销售行业中,通过输入客户的性格、穿搭习惯、所处行业及历史销售数据等信息,销售员将会被大数据分析告知,何时给哪一位客户打电话获得订单的概率最高;在品牌形象建立中,Persado能够依据市场情绪的分析,写出与用户能够产生共鸣的文案从而获取消费者好感;法律行业中Ravel能够“阅读”过去数十万判决案例,针对用户输入的案件给出判决概率预测,帮助律师制定辩护策略,而长期来看法律大数据企业很有可能取代大部分初级律师;同样在零售、广告、医疗等诸多领域,大数据技术都能通过分析数据内在的关系而帮助用户实现购买预测、受众精准投放以及病情辅助判断等功能。大数据的行业应用精彩纷呈,远不止上文所提到的这些,接下来的文章中我们会逐一展现大数据应用的神奇。
人工智能技术一直是科学家与技术人员的追求,但其发展并不是一帆风顺。例如最初的自然语言识别技术中,科学家希望通过语法规则使计算机理解语义从而实现智能化,但显示证明这一路径并不可行,其后依据大量数据样本的统计方法才有效的提升了自然语言处理的准确度并逐渐达到可用水平。
如今随着计算技术与数据量的提升,大数据能够带给我们的福利已经不仅限于资料的查找,识别语言、视觉的AI技术提供给我们的,除了经常看到的“个人助理”和动态美颜等功能外,仿照大脑结构进行写作、自动记录会议纪要、情绪识别与性格分析,甚至是视频内容的搜索等功能都能够对商业及产业起到较大的推动作用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06