五个大数据执行中应当避免的错误_数据分析师考试
近几年,有些名词由于使用过度或者是遭到误解而被认为是“大数据”。从用谷歌流感趋势解析器来预测大规模流感的爆发,到追踪人们购物的趋势,从引导消费者如何省钱,到制定能够对底层公司和个人产生影响的实时交易决策——数据已经成为今天全球经济中保持竞争力的关键。要想理解产业大数据的意义,以及为什么大数据能够受到如此多的关注,我们需要将数据库产业划分成几个部分来分析,这些产业在我们今天处理和分析数据的时候也为我们带来了不小的挑战。
为了充分了解大数据以达到我写这篇文章的目的,我会尽力从一个帮助公司了解大数据对其有何种意义的公司管理人员的角度,对大数据的定义予以阐明。大数据简单来说就是目前的一代人,他们有处理数据库和科学技术的需要以此来满足数据市场的需求。在与高德纳公司和其他公司结成同盟的今天,在谈论数据库的不同时我听到过这样一种解释:数量,种类,速度和难度。
这种数据包括复杂的文章,大容量的视频和录音文件,即时信息和多变的商业进程,这些都需要来自不同渠道的灵活的数据纲要。技术专家意识到遗留系统和传统的关系上的数据库处理系统的解决方案无法控制和处理数据的类型,因为它们是以一种直接趋向商业结果的方式呈现的,这时候问题就来了。这已经不再仅仅是储存信息的问题了。技术专家和商业领导者应当充分利用现有数据,存取,处理并在实际中使用它们。为了满足新的需要,新的使用者现正处于一种必须应对某些挑战的状态,因为随着数据的不断增加,新的问题也随之出现。
因此,当某些企业想要用大数据执行某些计划但是失败的时候,我们最常见的错误是什么呢?最近的一份调查显示在更广泛的领域内超过百分之七十五的大数据或者说是IT项目都是不完善的。我们应该清楚的看到,在找到最有效的解决方法使大数据能够被充分利用开发并为我们所用的道路上仍然有许多困难和挑战。
让我们来列举一部分。
首先,你没有充分利用你的数据。
也许,让很多企业都不得不面临大数据的挑战的一个很明显的原因,是缺乏一种通过使用大数据来推动支持决策形成商业智慧的能力。
如果一个线上出版者能够更好地理解读者会在什么时候以及为什么浏览他出版的内容并在他的页面上停留很久,他便能够根据现在和未来的浏览者的需要对内容进行改进。在现存的数据中,驱动价值是产业中最常见的难题之一。虽然众多的科技产品可以帮助克服这些困难,但是大部分的数据库产品都缺乏快速有效解决的这一问题的能力,因为它们没有进行大规模的数据转换,在精确衡量商业智慧上往往会制定一些不符合实际的过高目标。
如果大部分的数据库技术在一开始的时候并不了解和满足数据的某些特殊要求,那么它们便需要某种数据定义或者是数据纲要来减缓项目进程。还有要顺便提一句,这里描述的都是我在过去的15年来有着愉快的工作经历的IT项目。
NoSQL关系型数据库有效地解决了这个问题。如果执行了NoSQL关系型数据库(通常情况下可以行得通),那么纲要便不再需要了,或者是需要的程度降低了。这是NoSQL关系型数据库的主要价值所在,也是在关系市场上直接增加在使用者的知名度的一个主要的推动力。
复杂的数据建模,中间层的目标规划和不断返工,这些与更早的RDBMS关系型数据库管理系统有诸多联系的特点,为探索一种新的充分利用大数据的方式开辟了一条新路。
第二点是,你已经将公司赌在了免费软件上
通过过去几年的促销循环系统,每一个组织都在考虑有效利用最新最好的解决方案,像Apache和Pig这样的,都是感觉过去的RDBMS关系型数据库管理系统已经过时而力求创新。事实的确如此,关系型数据库本身无法满足NoSQL数据库能够达到的要求。在源头开放的大数据生态系统中,持续增长的失败案例已经能够防止大象试图飞行—许多公司已经感受到了小范围失败带来的损失。
免费软件运动已经因为其不真实性而备受批判,主要由哪些抱着不切实的幻想,守望着自己的产品能够成为下一个最畅销的产品或者只有他们自己可以做到这种程度的这种没有什么经验的软件开发者共享。
产业在过去的几十年里已经尽力去克服公司软件中的一些现实的不稳定因素(完整的版本是“你得到的永远不会多于你应得的——但是不要忘记后续,如果这看起来太美好而让人无法相信其真实性的话……”)
现实是大部分的开放源数据软件在满足公司的需要上都并不可行。大部分的开放源安装包的存在都是为了吸引那些寻求简单客户基础的网络开发者。这些产品都具有一些很典型的特点,不能物尽其用,不安全而且众所周知它们会丢失数据。是的它们会丢失数据,因为它们在一开始被设计研发时,就没有可以核对每一个自主数据的处理器。
第三点是,你彻底的放弃了昂贵的遗留下来的数据系统
我相信数据仓库将会有一个长远的未来。这并不是一个非常大胆的猜想,但是RDBMS关系型数据库管理系统的未来又会怎样?当然不久之后我们将看不到Oracle数据库的终结。
我的数据显示,逻辑型数据仓库(LDW)正在呈上涨趋势。一个仓库是建于由两个或者多个现实数据库合成的单一的接入视图之上的。同样的原因,产业未来应用的发展也正在采集使用NoSQL数据库,这便需要一种新的方式来构建和储存数据仓库。使用RDBMS关系型数据库管理系统的话,一开始会很难去驾驭它,反复做又会花费大量的时间和金钱。
一个逻辑性数据仓库(LDW)拥有一种独特的功能,能够加强几乎所有来自各种数据源的数据和索引,并构建一种客制化的时间系统,使所有客户进行交易和分析问题成为可能。虽然RDBMS关系型数据库管理系统已经成为一种旧的派别,但是放弃现有的数据执行手段的代价是非常巨大的。逻辑型数据仓库LDW允许公司在关于遗留系统的沉没成本的问题时可以尽量减少损失,并转向一个更有效率,更多面的,更有伸缩性的数据平台。一个公司的NoSQL关系型数据库可以成为旧有的RDBMS关系型数据库管理系统和失败的用以处理结构性数据,文件内容,档案和媒体的实战项目之间的整合点。这对过去长期一直与错误软件作斗争的不稳定的IT行业意义重大。
第四点是你不了解你的数据
对于任何产业来说,一种进化必然会很快的产生一种知识代沟:你对迎面而来的挑战和解决方法的了解远远落后于那些在特定企业中呆过的人。
一些人认为大数据产生了一些新的社会角色的需要。就在最近,我看到了首席数据官CDO和数据科学家的出现。很多人嘲笑过将专家带进企业带来的成本和需求,但是缺乏正确的专业知识的企业是无法理解自己的数据的,这意味着,他们也就不会知道最好的使用自身数据的方法。据高德纳公司预测,到2015年全球百分之二十五的大型企业都将聘请首席数据官CDO。
但是坦白说,你们真的不需要数据科学家,你们需要的是更好的软件。
第五点是你总是贪得无厌
也许在你突袭进入大数据领域中最容易避开的错误就是不要吸收太多的数据。大部分情况下,科技方面的原因导致了这种现象的出现。奇怪的是,从大数据的角度处理整个公司的事情基本上是不可能的,那么为什么不从最底层开始,逐渐积累成功的经验从而使项目一点一点发展起来呢?使用灵活的科学技术,像公司中的 NoSQL关系型数据库。迭代数据仓库的发展会很快出现,同时能够减少重复作业和预付工程成本。
曾经有一段时间,以能力为基础的公司成功的带着所有的可用数据快速果断地实现了转移,若要增加每一个公司的竞争优势其压力也是十分大的。太多企业吸收过多自身无法成功处理的数据。有一种错误的观念是,所有的大数据问题在某种程度上都可以一起解决,就像一个需要唯一解决办法的集成问题一样。带着游戏总会结束的思想,IT管理者和主要的信息人员应当问清楚自己尝试去施加影响的商业决策到底是什么样的,而不是一味考虑怎样把新技术和旧有技术融为一体。能否获得正确的答案将直接决定一切数据项目的成败。
团队应从小处着眼,快速的缩小比例,并能够适应摆在面前相关的模式和解决方法将会有利于使未来的项目不超出预算并按时完成,最重要的一点是,达到预期的结果。
无论你正在处理的是金融数据,特定的保健数据和购物分析还是出版工作和政府情报,这些数据的一致性就在于他们的多变性,复杂性和多样化以及它们不断增加的数量和需求。要想以一种驱动商业价值的方式来处理大量的不断汇集的数据,企业必须要明白众多大数据项目失败的原因,从而避免已经出现过的错误导致的失败。知道不应该做什么和知道应该做什么同样重要,有了这些基本的知识,企业才能快速实现他们短期和长期的各种目标。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31