在Paradigm4(也就是开源计算数据库管理系统SciDB的缔造者)本周发布的一份面向超过一百位数据科学家的调查报告当中,他们发现有71%的受访数据科学家认为随着数据源种类以及数据规模的不断增加、他们的工作难度也随之逐步攀升。
值得注意的是,只有48%的受访者在调查中表示他们曾经在工作当中使用过Hadoop或者Spark,而且76%的受访者认为Hadoop的执行速度太过缓慢、在建立规划时需要投入大量精力或者存在其它严重局限。
“数据源种类的不断增加正迫使数据科学家们寻找处理问题的捷径,否则数据量与财政预算之间的矛盾将变得不可调和,”Paradigm4公司 CEO Marilyn Matz表示。“目前对于数据规模的关注掩盖了分析工作当中的真正挑战所在。只有解决对不同类型数据加以利用这一重大难题,我们才有可能释放分析手段当中 所蕴藏的巨大潜能。”
即使抛开Hadoop平台周边存在的诸多挑战性因素,其本身也仍然无法令人满意。约有半数受访者在调查中表示(49%),他们发现自己的数据很 难与关系型数据库表相适应。59%的受访者指出他们所在的企业已经开始使用复杂的分析机制——包括协方差分析等数学手段、集群化、机器学习、主成分分析与 图形操作,而非商务智能报告等“基础分析”手段——对业务数据进行分析。
另有15%的受访者计划在未来一年中开始使用复杂分析机制,16%的受访者则将复杂分析机制的引入规划设定在未来两年内。只有4%的受访者表示他们所在的企业尚无计划使用复杂分析方案。
Paradigm4认为这意味着大数据这一“唾手可得的价值果实”已经开始转化为实际收益,而数据科学家们将需要进一步深入研究、从而最大程度提升其附加价值。
“大数据发展进程中由简单向复杂分析的过渡预示着分析机制将逐步走向规模化道路,而这个过程将超越单一服务器内存容量限制、将分散且易于忽略的 价值作为关注重点并需要以适当的混合采样频率作为依托——这一切都将成为分析领域的新兴需求,”Paradigm4在报告中写道。“这些复杂分析方法同时 也会给数据科学家带来众多不受监管且无从假设的实际处理方案,并最终让数据自身有能力给出结论。”
有时候单靠Hadoop还远远不够
Paradigm4还认为,Hadoop已经被不切实际地夸大成了一套具有普遍性与颠覆性的大数据解决方案。报告指出,在某些特定复杂分析用例 当中,Hadoop根本不能算是可行的解决方案。Paradigm4表示,基础分析已经成为一种“高度并行机制”(也被称为‘数据并行机制’),而复杂分 析则并非如此。
所谓高度并行问题可以被拆分成多个独立的子问题且能够并行运作——不同任务之间几乎甚至完全不存在关联性,因此大家不需要一次性访问全部数据内 容。这也正是Hadoop MapReduce在处理数据时所遵循的办法。而非高度并行类分析任务,例如众多复杂分析问题,要求一次性使用并共享全部数据内容并在处理过程当中随时进 行结果通信。
22%的受访数据科学家在调查中表示,Hadoop与Spark并不适合自己的分析实例。Paradigm4公司还发现,35%的受访数据科学家曾经尝试过Hadoop或者Spark,但最终放弃了将其引入实际业务环境的打算。
Paradigm4在报告中提到的111位美国数据科学家来自由创新研究企业Innovation Enterprise自2014年3月27日到4月23日进行的调查群体。Paradigm4在下面这份图表当中汇总了全部相关调查结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31