紧张精彩的2015年已经结束了,现在是时候回过头来看一看数据分析软件市场的潮流。 已经有几个趋势继续变得壮大(比如开源,云托管,基于Hadoop的SQL解决方案),同时AWS上的Redshift开始成为数据仓库中的一支重要力量。
除了Spark,大部分Hadoop的生态系统里的新闻都来自Presto, Impala and Drill。 关于MapReduce继任者的斗争还在持续,而在列表中的所有候选者的一个主要的共同点就是他们都提供SQL界面。这个趋势从2010年Hive开始逐渐取代Pig就一直如此。
因为太多的Hadoop生态系统提供的价值围绕在分析和商业智能上,而过去数十年整个分析世界已经运行在SQL的基础之上,并且围绕它建立了很多无法替代的公司竞争力,所以在经过了很多关于NoSQL和Hadoop的憧憬以后,大家发现还是要回过头来面对这个事实。
Druid看起来要火
在主流的大规模基于内存的OLAP数据库中,LinkedIn的Pinot和Metamarkets的Druid是两个主流选择。 Druid似乎从Yahoo得到了不少关注,而且不少最前沿的高科技公司也开始越来越多地使用它来驱动实时商业智能(BI)。
十月份,Druid一些主要贡献者宣布了Imply.io,一家为Druid提供商业支持及打造出围绕Druid的生态系统的公司。总体而言,很多聪明人开始用Druid来做内存数据库,以便对海量数据集进行交互式分析。
开源机器学习库Galore
十一月, 谷歌开源Tensor Flow ,一个利用数据流图谱进行计算的广义库。 它被大量用于机器学习,特别是深度神经网络。 它还在加盟了十一月微软发布的Theano,Torch,DMLT。
虽然上面提到的这些库不是可以把人工智能添加到任何产品的简单插件,但是以他们为基石任何有足够多的数据的人都可以来训练他们的系统来制造最先进的算法。 当大家都开始在基石上建造,产品的整体复杂性,无论是分析相关还是其他方面,都会不断提高。
IBM在Spark上发力
6月,IBM 宣布把3500研发人员放在Spark相关项目上。 Spark是在许多方面是Hadoop的生态系统里的MapReduce的继承人。 它为开发人员提供了四大法宝(低级别数据处理语言,机器学习库,图形算法和SQL-on-Hadoop数据库)来进行数据的混合及匹配。
虽然仍然在用户实践的最初阶段,Spark已经得到了背后庞大的开发者的支持。十月份,IBM宣布了基于Bluemix的Spark-as-a-service ,并且把其数据工程产品移植到Spark上。这件事情对以开发Apache Spark为主业的Databricks 公司的影响十分值得关注。
商业智能开源软件开始兴起的一年
从历史上看,开源软件的创新基本上在软件堆栈的较底层。 随着时间的推移,以及对开源软件企业可行的商业模式的的发展,越来越多的面向最终用户的软件正在以开源的方式进行开放。
去年,两个古董的开源BI公司之一的JasperSoft被Tibco以$ 1.85亿美元收购。另一个公司,Pentaho,则在前年2月就被日立数据系统公司以超过$ 5亿美元收购。
同时,在2015年还涌现出了多家轻量级的开源项目。AirPal和Re:Dash把重点放在使用户能够快速,轻松地在Redshift上进行SQL查询(详见下文),而Metabase还提供了一个非常易于安装的工具,允许非技术用户对多种数据库进行数据查询和分享数据报表。
专有事件分析公司继续涌现
虽然Google Analytics仍然是大家默认的首选,仍然有很多人致力于开发以收集并分析在网站和移动应用上的用户行为为中心的,集所有功能于一身的分析系统。
与此同时,作为Google Analytics的主要竞争对手,Mixpanel(截止去年已募集$ 6.5亿美金),于去年7月跟随Heap公司的脚步,发布了Codeless Analytics。它主要是通过添加SDK到您的移动应用里,自动对移动应用进行数据埋点,并同时获得对用户行为事件的分析,而无需手动对特定事件进行埋点。 十一月,该公司发布了Predict,它可以让你使用轻量级的机器学习来预测用户是否会执行一个动作(如转换付费)。
与此同时 - Heap已经因为它在移动和网络事件的数据分析上的简单易用性而获得了一定的知名度; Amplitude在八月融资$ 9百万美元;而以增快数据分析速度为核心业务的Interana也在一月份A系列融资$ 2000万美元。
同时,廉价和简单地运行一个数据仓库的方案的出现(如AWS的Redshift)也对传统的使用专有事件分析软件的理念带来了冲击。
正在兴起的建立于云端的分析架构
在2015年,一个用于处理商业智能的新的标准正在越来越多的创业公司(以及愿意保持创业心态的中型公司)中形成: 上世纪90年代的统一数据仓库的概念正在回归。允许这样做的关键因素是AWS Redshit作为分析数据仓库的广泛采用。
因为Redshitshift相对于老一辈的数据库(如Aster,Vertica, Teradata等)比较容易维护,它很快成为科技创业公司里数据仓库的首选。
有两组初创企业乘着这股浪潮:那些帮助把你的数据转移到Redshift上的和那些让你对在Redshift上的数据进行分析的。
第一组包括一些公司讲业务完全围绕在将数据加载到Redshift(如Alooma,Etleap,Textur)。此外, Segment去年正式宣布了将数据送到Redshift上的能力。 同时,RJMetrics,一个电子商务分析的供应商,推出了他们的系统里关于数据摄取的部分帮助您将数据送到Redshift。
总而言之,许多公司都把自己的赌注押在AWS上,绝大部分在去年秋天QuickSight发布前。随着AWS的数据管道等摄入服务不断完善,他们的业务模式是否仍然存在还有待观察。鉴于AWS的移动分析SDK和数据摄入管道的存在,可能留给这些公司的生存空间会逐渐消失。
鉴于QuickSight的预览版目前只能提供很基本的功能,一些BI软件供应商在2015年从在Redshift上投入巨资的客户上获得了很多业务。 Looker, Mode Analytics, Periscope and Metabase是在Redshift被用来做分析数据的产品里比较突出的。 然而,这个领域会怎样发展很大程度上要看AWS来年会带来怎样的新产品。
总而言之,2016年正在成为一个非常值得纪念的一年,尤其在融资放缓的影响更加明显的情况下。
伟大的回火(公司估值压缩)
虽然在事件形成的过程中很难感觉到,但回过头来看,股票市场里股价对营收比的压缩对私募市场的影响很明显,特别是当Fidelity公开将它手中一大批其后期投资降低估值的时候。
在做分析软件的公司中,Cloudera的估值变化不大,而Dataminr的估值下降了35%。 在一般情况下,分析创业公司的获取资本的成本,无论是早期或晚期,都变高了很多。虽然大量的风投公司扔在获得新的资金,并有足够的钱去投资,总的感觉是,对初创企业的估值已经缓慢开始下调。
今年会有一些动荡,无论是在募资上,还有更重要的是,在很多分析公司的客户群的相关预算上。由于大多数公司的客户终身价值对客户流失的敏感度,2016年看起来会是一个需要系好安全带准备迎接大风浪的时间。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31