大数据分析之数据孤岛:你能看到它们吗
从企业和CIO们开始尝试数据挖掘以来,数据孤岛就一直阻碍着商业智能效能的提高。数据孤岛,换句话说昂贵的、需要费尽心血维护却彼此无法兼容的数 据库,指望从它们那儿发掘到伟大的知识,无疑于缘木求鱼。也就是说,数据库的数量和挖掘到的知识产量没有任何关系。正如一位商业智能专家所说的,进进出出 的都是垃圾。
谈到大数据分析-或者叫数据3V(类别、数量和增长率),则是个令大多数公司窒息的流行语。因为,据分析师Ted Friedman说,数据孤岛整指数般的蔓延-就像瘟疫一样。
“在你的公司,任何时间任何地方,都有数据孤岛的存在。从大数据的角度看,简直整个宇宙都充斥着数据孤岛-在防火墙里,在web上,在‘云’端,还有那些 属于其他企业、客户和供应商的却在你这儿出现的数据,”Gartner主持信息管理咨询的Friedman说道,“所有这些使得你更难打破数据孤岛来挖掘 有意义的知识信息。”
那么,CIO在诠释大数据的过程中能起到什么作用呢?和企业遇到的其他IT挑战一样,这个难题及其解决之道也围绕 着人才、流程和技术而展开。CIO不仅需要为为员工培养新技能(包括招募数据科学家、分析师和架构师等),而且需要说服高层:大数据治理是需要高管甚至董 事会关注的重要命题。
突然变时髦的数据管理
对付大数据遭遇的数据孤岛问题有一种 方法,就是孤立分析,重点突破。Gartner专门有一种信息估值过程来运用这种方法。“在庞大的数据海洋中,不同数据有着不同的价值,于是数据挖掘的目 标,就变成了定义怎样的问题空间,然后在空间内深入分析,”Friedman说道,“就我看来,客户往往将分析边界定义得太过宽泛。”
为了突出重点,企业可以首先问自己这样一个问题:我们到底要从数据中得到什么?这些数据和我们的业务有什么联系?我们如何使用这些数据以获得积极的回报?
随着企业越来越关注潜伏在大数据中的价值信息,Gartner注意到越来越多的公司开始设立数据治理委员会。由业务干系人所组成,这些机构关注一切方面 -从哪些是重要的数据源、向什么技术投资,到各种和数据有关的问题,譬如数据质量、数据保留度、数据整合、数据安全性和信息隐私。
外部数据孤岛的危险探索
除了少数IT专家外,也应该开放给其他职员大数据探索的权利,以最大程度从大数据中攫取价值。Gartner及其它专业人士担心,很多组织急于从大数据中牟利,以至于忽视了IT治理的风险,从而付出了侵犯隐私、数据造假等问题而得到严惩的代价。
“在企业里,彻底的数据开放不切实际,”麻省Forrester首席分析师Boris Evelson说道,“有各种各样的监管问题和利益冲突。举个例子,投行的行研师和交易员之间就绝对不可互犯雷池一步。”
在科罗拉多大学国家冰雪研究数据中心(NSIDC)和其数据收集伙伴美国航天局(NASA)看来,保护数据的完整是一项巨大的挑战,NSIDC的IT服 务经理David Gallaher如是说。David的主要任务,是收集、管理记录着世界上所有冰冻地域的以PB级计算的科学数据,并保证以可控的方式分发给需要的研究人 员。“我们需要让人们尽可能方便地获取他们需要的数据,但我们必须得保证他们不可能胡乱更改其中的任何一处,”正在接受地理学培训的Gallaher表 示。另一方面,NSIDC的科学家们每次访问数据后肯定会对其进行更新,所以数据管理的治理原则必须是“正确的人做正确的修改”,Gallaher强调 道。NSIDC目前正在和美国国家科学基金会合作完善其数据治理原则。
数据管理-只要多视图,不要多拷贝
不是所有人同意大数据一定意味着更多的数据孤岛这一说法。IBM大数据项目副总裁Anjul Bhambhri就宣称,大数据其实能“帮助”CIO。
“现在,数据孤岛能够进行自我清理,”在一次针对其一年来为200多家公司清理数据孤岛的访谈中,Bhambhri如是说。一家大型企业为邮件归档建立了 13个数据集市(单是法务部就使用了8个),因为当他们要访问归档邮件时,他们等不及让IT来处理。另一家公司的两个部门分别为自己的web缓存建立了拷 贝。“要知道他们每天就有150亿条缓存要处理,”Bhambhri说道。
新技术-当然,包括IBM的BI大数据产品-可让企业在一个数据 仓库中存储和分析庞大的数据信息。因此,上述两家公司只用保留一个活跃的数据归档,大可不必设立13个归档副本或150亿web缓存。“你的数据只用保存 于一处,来自多处的应用即可对数据同时进行访问,因为数据在存储层次的形式保持不变,”Bhambhri说道。然而,即使她和像她这样的积极倡导大数据分 析的IT人士,也不断提醒企业,有效的大数据分析,需要对已有的IT系统框架进行彻底地改造。“能够有效存储数据是在正确的方向上前进了一大步,”她说 道,“但仅能存储是不够的,有效的分析还需要大量的算法。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30