五个大数据执行中应当避免的错误_数据分析师考试
近几年,有些名词由于使用过度或者是遭到误解而被认为是“大数据”。从用谷歌流感趋势解析器来预测大规模流感的爆发,到追踪人们购物的趋势,从引导消费者如何省钱,到制定能够对底层公司和个人产生影响的实时交易决策——数据已经成为今天全球经济中保持竞争力的关键。要想理解产业大数据的意义,以及为什么大数据能够受到如此多的关注,我们需要将数据库产业划分成几个部分来分析,这些产业在我们今天处理和分析数据的时候也为我们带来了不小的挑战。
为了充分了解大数据以达到我写这篇文章的目的,我会尽力从一个帮助公司了解大数据对其有何种意义的公司管理人员的角度,对大数据的定义予以阐明。大数据简单来说就是目前的一代人,他们有处理数据库和科学技术的需要以此来满足数据市场的需求。在与高德纳公司和其他公司结成同盟的今天,在谈论数据库的不同时我听到过这样一种解释:数量,种类,速度和难度。
这种数据包括复杂的文章,大容量的视频和录音文件,即时信息和多变的商业进程,这些都需要来自不同渠道的灵活的数据纲要。技术专家意识到遗留系统和传统的关系上的数据库处理系统的解决方案无法控制和处理数据的类型,因为它们是以一种直接趋向商业结果的方式呈现的,这时候问题就来了。这已经不再仅仅是储存信息的问题了。技术专家和商业领导者应当充分利用现有数据,存取,处理并在实际中使用它们。为了满足新的需要,新的使用者现正处于一种必须应对某些挑战的状态,因为随着数据的不断增加,新的问题也随之出现。
因此,当某些企业想要用大数据执行某些计划但是失败的时候,我们最常见的错误是什么呢?最近的一份调查显示在更广泛的领域内超过百分之七十五的大数据或者说是IT项目都是不完善的。我们应该清楚的看到,在找到最有效的解决方法使大数据能够被充分利用开发并为我们所用的道路上仍然有许多困难和挑战。
让我们来列举一部分。
首先,你没有充分利用你的数据。
也许,让很多企业都不得不面临大数据的挑战的一个很明显的原因,是缺乏一种通过使用大数据来推动支持决策形成商业智慧的能力。
如果一个线上出版者能够更好地理解读者会在什么时候以及为什么浏览他出版的内容并在他的页面上停留很久,他便能够根据现在和未来的浏览者的需要对内容进行改进。在现存的数据中,驱动价值是产业中最常见的难题之一。虽然众多的科技产品可以帮助克服这些困难,但是大部分的数据库产品都缺乏快速有效解决的这一问题的能力,因为它们没有进行大规模的数据转换,在精确衡量商业智慧上往往会制定一些不符合实际的过高目标。
如果大部分的数据库技术在一开始的时候并不了解和满足数据的某些特殊要求,那么它们便需要某种数据定义或者是数据纲要来减缓项目进程。还有要顺便提一句,这里描述的都是我在过去的15年来有着愉快的工作经历的IT项目。
NoSQL关系型数据库有效地解决了这个问题。如果执行了NoSQL关系型数据库(通常情况下可以行得通),那么纲要便不再需要了,或者是需要的程度降低了。这是NoSQL关系型数据库的主要价值所在,也是在关系市场上直接增加在使用者的知名度的一个主要的推动力。
复杂的数据建模,中间层的目标规划和不断返工,这些与更早的RDBMS关系型数据库管理系统有诸多联系的特点,为探索一种新的充分利用大数据的方式开辟了一条新路。
第二点是,你已经将公司赌在了免费软件上
通过过去几年的促销循环系统,每一个组织都在考虑有效利用最新最好的解决方案,像Apache和Pig这样的,都是感觉过去的RDBMS关系型数据库管理系统已经过时而力求创新。事实的确如此,关系型数据库本身无法满足NoSQL数据库能够达到的要求。在源头开放的大数据生态系统中,持续增长的失败案例已经能够防止大象试图飞行—许多公司已经感受到了小范围失败带来的损失。
免费软件运动已经因为其不真实性而备受批判,主要由哪些抱着不切实的幻想,守望着自己的产品能够成为下一个最畅销的产品或者只有他们自己可以做到这种程度的这种没有什么经验的软件开发者共享。
产业在过去的几十年里已经尽力去克服公司软件中的一些现实的不稳定因素(完整的版本是“你得到的永远不会多于你应得的——但是不要忘记后续,如果这看起来太美好而让人无法相信其真实性的话……”)
现实是大部分的开放源数据软件在满足公司的需要上都并不可行。大部分的开放源安装包的存在都是为了吸引那些寻求简单客户基础的网络开发者。这些产品都具有一些很典型的特点,不能物尽其用,不安全而且众所周知它们会丢失数据。是的它们会丢失数据,因为它们在一开始被设计研发时,就没有可以核对每一个自主数据的处理器。
第三点是,你彻底的放弃了昂贵的遗留下来的数据系统
我相信数据仓库将会有一个长远的未来。这并不是一个非常大胆的猜想,但是RDBMS关系型数据库管理系统的未来又会怎样?当然不久之后我们将看不到Oracle数据库的终结。
我的数据显示,逻辑型数据仓库(LDW)正在呈上涨趋势。一个仓库是建于由两个或者多个现实数据库合成的单一的接入视图之上的。同样的原因,产业未来应用的发展也正在采集使用NoSQL数据库,这便需要一种新的方式来构建和储存数据仓库。使用RDBMS关系型数据库管理系统的话,一开始会很难去驾驭它,反复做又会花费大量的时间和金钱。
一个逻辑性数据仓库(LDW)拥有一种独特的功能,能够加强几乎所有来自各种数据源的数据和索引,并构建一种客制化的时间系统,使所有客户进行交易和分析问题成为可能。虽然RDBMS关系型数据库管理系统已经成为一种旧的派别,但是放弃现有的数据执行手段的代价是非常巨大的。逻辑型数据仓库LDW允许公司在关于遗留系统的沉没成本的问题时可以尽量减少损失,并转向一个更有效率,更多面的,更有伸缩性的数据平台。一个公司的NoSQL关系型数据库可以成为旧有的RDBMS关系型数据库管理系统和失败的用以处理结构性数据,文件内容,档案和媒体的实战项目之间的整合点。这对过去长期一直与错误软件作斗争的不稳定的IT行业意义重大。
第四点是你不了解你的数据
对于任何产业来说,一种进化必然会很快的产生一种知识代沟:你对迎面而来的挑战和解决方法的了解远远落后于那些在特定企业中呆过的人。
一些人认为大数据产生了一些新的社会角色的需要。就在最近,我看到了首席数据官CDO和数据科学家的出现。很多人嘲笑过将专家带进企业带来的成本和需求,但是缺乏正确的专业知识的企业是无法理解自己的数据的,这意味着,他们也就不会知道最好的使用自身数据的方法。据高德纳公司预测,到2015年全球百分之二十五的大型企业都将聘请首席数据官CDO。
但是坦白说,你们真的不需要数据科学家,你们需要的是更好的软件。
第五点是你总是贪得无厌
也许在你突袭进入大数据领域中最容易避开的错误就是不要吸收太多的数据。大部分情况下,科技方面的原因导致了这种现象的出现。奇怪的是,从大数据的角度处理整个公司的事情基本上是不可能的,那么为什么不从最底层开始,逐渐积累成功的经验从而使项目一点一点发展起来呢?使用灵活的科学技术,像公司中的 NoSQL关系型数据库。迭代数据仓库的发展会很快出现,同时能够减少重复作业和预付工程成本。
曾经有一段时间,以能力为基础的公司成功的带着所有的可用数据快速果断地实现了转移,若要增加每一个公司的竞争优势其压力也是十分大的。太多企业吸收过多自身无法成功处理的数据。有一种错误的观念是,所有的大数据问题在某种程度上都可以一起解决,就像一个需要唯一解决办法的集成问题一样。带着游戏总会结束的思想,IT管理者和主要的信息人员应当问清楚自己尝试去施加影响的商业决策到底是什么样的,而不是一味考虑怎样把新技术和旧有技术融为一体。能否获得正确的答案将直接决定一切数据项目的成败。
团队应从小处着眼,快速的缩小比例,并能够适应摆在面前相关的模式和解决方法将会有利于使未来的项目不超出预算并按时完成,最重要的一点是,达到预期的结果。
无论你正在处理的是金融数据,特定的保健数据和购物分析还是出版工作和政府情报,这些数据的一致性就在于他们的多变性,复杂性和多样化以及它们不断增加的数量和需求。要想以一种驱动商业价值的方式来处理大量的不断汇集的数据,企业必须要明白众多大数据项目失败的原因,从而避免已经出现过的错误导致的失败。知道不应该做什么和知道应该做什么同样重要,有了这些基本的知识,企业才能快速实现他们短期和长期的各种目标。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16