大数据:释放应用价值,数据融合先行
我们所处的社会已经从IT(Information Technology)时代全面跨入DT(Data Technology)时代,数据渗透到当今每一个行业和业务职能领域,成为关键的生产要素之一。从Gartner发布的大数据技术成熟度曲线图中可以看出,大数据已不在是停留在概念层面,而是正式进入了产业化应用进程中。据统计,仅全球交通、教育、消费、电力、能源、健康与金融等7大重点领域的大数据应用潜在价值就在3.2万亿-5.4万亿元左右,大数据潜在发展空间巨大。
然而,从中国信息通信研究院的另一组数据表明,国内实际的应用情况尚有差距,据统计有44%的企业还没有大数据部署和应用,24%的部署了但未实现大数据应用,只有1/3的企业初步应用了大数据,是什么制约了大数据的快速普及之路? 中国工程院院士、中国互联网协会理事长邬贺铨院士在2017大数据产业峰会上表示:"数据资源的流动性和可获取性是大数据应用和产业发展的基础,直接关系到大数据价值的实现情况。"
传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。但在大数据时代,数据源是多样的、多种形态的,海量的数据常常是半结构或无结构的。从数据获取到最终的数据价值呈现要经历数据从源头接入、处理、存储计算到分析挖掘、应用、服务的完整数据生命周期。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合就成为不可或缺的一步。
所谓数据融合,是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集合,实现数据资源的流动和易获取,从而支撑多样并呈碎片化的商业智能服务使用。来自赛迪智库的调研,现实中实施的大数据项目至少有80%的时间和经费花在了数据准备上,其中多源数据的融合是最耗费资源的任务之一。纽约时报也曾报道: “数据科学家把高达80%的时间用于数据准备而不是用来发现新的商业智能”。
伴随着人们对数据应用价值的不断渴求,区别于传统数据统计的需求,用户对大数据的数据准备有着更高的要求:
第一, 多源。除了众所周知的数据开放度的影响之外,多源数据融合的另一个瓶颈在于如何打破原有垂直建设系统间的信息孤岛、构造统一的整体的数据平台,把分散但相互有关联的数据以整体的视角看待和思考并进行管理,并且通过这样的统一平台,对上层碎片化的或需要快速迭代的大数据应用进行有效、良好的支撑。比如在数据抓取中,要充分考虑传统企业已经具备大量系统存在的情况,而对于这些系统在不干扰的情况下,如何能够把数据准确、高效、实时的拿得出来,快速认清企业有什么样的数据原材料。这在非常多的尤其是政府、大型企业里面是个很大的挑战。另外,数据进来之后,因为系统和系统之间的建设时间是不同的,数据的表现形态也是各异的,我们要对这些数据进行横向之间的处理并且能把这些数据关联起来,让分散的数据形成一个整体,这都是数据融合过程中所要解决的问题。
第二, 实时。万物互联的趋势下,人们不仅对于数据的数量,也对数据的时效性提出了愈来愈高的要求,有一组数据表明12%的管理者都能认识到数据对于企业或组织的巨大影响,然而,53%的管理者认为太多的核心信息不能及时获得。特别是在某些连续性业务运转的应用场景下,比如通信、金融、安全领域等,需要通过大数据技术对业务数据进行实时同步的收集、整合与挖掘分析,用以指导甚至是随时根据数据变化而调整业务策略,而不是把业务系统停掉先分析再作出决策。对未来的预测远比做事后诸葛更能体现大数据的潜在价值。
第三, 海量。在DT时代,数据量急剧爆发,据IDC预测,目前全球每年数据的生产量是 8ZB( 1ZB=1024EB),2020 年将达到 40ZB。我们已经从“传统互联网”时代的“线上数据化”阶段和“互联网+”时代的“线下数据化”阶段,快速进入了“数据流通时代”,即线上线下全产业实现数据化,数据在产业链上下游甚至跨产业流通并创造价值的阶段。在这一过程中,目前数据的生产速度和能力远远大于我们对其使用和价值变现的速度和能力。对数据业务价值的高期望值和落后的数据集成方案之间的矛盾日渐突出。互联网、物联网、云计算,我们的业务系统每时每刻都在产生着大量的不同来源的数据,如何及时、有效、全面的捕获到这些数据是另外一个会直接影响数据价值体现的关键因素。
多源、实时和海量,是大部分大数据应用中的普遍性要求,特别是在智慧城市等具有跨行业、跨系统、跨职能整合需要的信息化项目中,科学高效的数据融合方案至关重要。前不久,在“2017大数据产业峰会”上,湖北省升级政务云“楚天云”项目就凭借其创新的数据融合模式荣膺“2017年度政务大数据优先应用案例奖”。作为“智慧湖北”建设的核心工程,“楚天云”是目前国内安全等级最高、规模最大、技术领先的省级政务云之一,承载了湖北省的52个省直部门的330个应用系统的各类海量政府核心数据。
在“楚天云”建设之初面对数量庞大的多个系统,数据的流通和融合面临巨大的难题。在经过充分的调研和技术对比后,“楚天云”选择了数据交换枢纽平台的思路,采用目前国内领先的大数据技术厂商—翱旗科技的R7系列产品技术,把数据交换平台架设于楚天云自身的IaaS云平台之上,通过数据集成交互技术和数据资产管理技术,消除不同操作平台、不同类型数据库、不同结构数据之间的堡垒边界,真正做到数据层面的互通、整合、联动,实现了数据间的无障碍互通。同时,通过非侵入式、无代码图形化集中管控,为管理者和使用者提供了高度易用性和低成本的管理运维模式。在“楚天云”的后续应用中,将通过建设这一数据交换枢纽平台,在省级范围内建立起一种数据大平台与碎片化应用结合的数据生态系统,构建起从数据产生到数据应用的整套机制,提高数据的活跃度和利用率,让数据价值得以真正呈现。目前,建成后的“楚天云”数据交换枢纽平台能够达到秒级传输几百G的数据量,业务端和数据平台端数据几乎同步,完全能够满足管理决策者对于海量数据实时交互的需求,使具体业务场景下的效率提升,缩短决策时间,让大数据价值得以体现。从数据融合角度看,“楚天云”案例,在“智慧政务”领域为其他智慧城市项目提供了可参考借鉴的成功实践。
作为“楚天云”数据交换枢纽平台的建设者之一,翱旗科技定位于数据基础科学研究,并拥有领先自主核心技术,所研发的产品以通用化为基础、自动化为实现方式、智能化为目标,在“数据采集与融合、数据管理、存储、挖掘与分析、可视化”整个数据生命周期中形成了独有的产业闭环。在“楚天云”项目中,翱旗以数据融合为核心思路,基于数据底层技术,针对任何数据类型,通过对数据的实时感知、处理和管理等赋能过程,将繁琐、复杂、高难度、高风险的数据需求标准化和组件化,能够完成对省级多源海量数据的融合管理,为“智慧湖北”提供数据层面的完全支撑。除了应用于智慧城市项目中,翱旗科技还进一步把数据融合技术进行了产品化。据悉,2017年4月13日,翱旗科技将正式发布针对大数据领域的系列通用化产品,包括数据集成交互产品和分布式数据库产品等,能够把大数据领域的系列技术和服务转化成标准化、通用化的产品,这在国内尚属首次。
最近几年,像翱旗这样的国内外大数据技术公司开始纷纷将数据处理整合过程中相关技术集合、组合,提升后开发出专门用于数据融合的新工具。应用这些直观、可视、高效的软件工具,数据准备过程的工效大大提高,在一定程度上解决了数据融合的技术瓶颈。2016年Gartner公司数据管理和分析软件工具的评估报告显示,数据融合处理类自我服务式数据准备软件(Self-service Data Preparation)已成为发展最快的工具之一。伴随着大数据应用需求的日益深入和普及,面向解决数据融合问题的通用化技术产品无疑将迎来更多的发展机会。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10