认知应用:大数据的下个转折点
这篇文章是一个投资者对数据分析在过去25年的回顾。作者西蒙迪斯从投资者的角度讨论了数据分析的变革,认知应用的价值,以及最受风投关注的大数据核心领域。
在我的之前的一些博客中,我提到了生成认知的必要性和重要性,并提供了一个认知应用的例子。我始终认为认知应用是对于希望通过挖掘大数据从而改进决策和解决重要问题的公司的关键所在。为了更好的理解和领会开发这类应用的必要性,考虑在大数据领域正在发生什么,并且评估我们在商业智能系统上的经验,及它应该如何驱动我们理解认知应用是十分重要的。
由于我认为认知应用是大数据发展的下一个转折(参见最近使用IBM Watson平台建立的这类应用举例),我将要在一系列博客中进一步探讨这个话题。在这篇博客中,我对于数据分析在过去25年的演变进行了观察。,特别是当我们来到大数据时代,开发认知应用是必然之举。在第二篇博客中,我将更为详细地描述这类应用,并且提供一些例子。在第最后的第三篇博客中,我将讨论投资者对认知应用的兴趣,并描述我最近对这一领域的创业公司的投资。在这些博客中,我的分析和理解均基于本人作为三十多年的企业家、量两分析应用创业公司的创始人以及在这一领域进行了15年投资的风险投资人的经验。
数据分析在过去25年
随着过去25年中数据量的大幅增加,针对决策制定的数据理解都由两个步骤组成:创建数据仓库以及理解数据仓库的内容。
数据仓库以及它的前身—企业数据仓库、数据市场等,是构造专业数据库所必须的基础架构。这些数据可能来自于一个单独的数据源(例如客户关系管理应用的数据库)或者来自整合过的一系列不同的数据源(例如将一个客户关系管理应用的数据库和一个包含每个客户的社交媒体交互数据的数据库整合起来)。这些数据可能是结构化的(例如货币被描述为每个用户支付的数量)、非结构化的(例如一个客户和一个服务专员之间以文本形式的交互内容)。专业化数据是那些一旦被抓取,就是干净的、有标签的、并且自动地或被(比人们认为更频繁地进行)人工描述的。
在过去几年里,我们已经通过大量使用开源软件、云计算、商用硬件等来降低数据仓库的开销,并进一步改进我们管理更多样、大量和高速产生的数据的能力。我们已经从只有诸如金融服务的花旗银行以及零售业的沃尔玛之类的大公司才能负担的、千万美元开销的数据仓库转向对于中小型企业可以负担得起的数据仓库。最近,低开销的服务提供方,诸如亚马逊的Redshift,谷歌的BigQuery,甚至是微软的Azure,已经把数据仓库移到云上。最终,数据仓库对于普通企业来说都是可用的。
随着数据仓库的崛起,数据分析报告的交付已从打印转向数据化
数据理解的第二步涉及到通过数据分析来理解数据仓库的内容。在商业环境中,这往往是通过报告和关联的可视化来完成,有时候也会使用更加定制化的可视化和诸如神经网络的机器学习算法(机器学习虽然并不是新概念,但几乎从数据仓库作为数据存储和管理工具出现开始就被使用)。
随着数据仓库被更多的各行各业的公司所采用,我们见证了可以创建的报告的形式的逐渐改变,报告被展现给分析师和决策者,以及准备报告的人。在早期(80年代末90年代早期),商务智能报告由技术专员创建,他们也是通过向数据仓库提供函数和查询来得到报告。这些报告被封装(例如,它们可以被修改,但是有很大难度,且只能被同一个创建报告的技术专员所修改),并在计算机打印纸上呈现。后来,尽管这些报告仍然被封装,它们可以在电脑上通过专门的报告程序来呈现,再后来,可以呈现在包括智能电话和手持终端运行的网络浏览器上。近年来,查询创建和报告撰写的任务从技术专员转交给了商业用户。然而,尽管查询和关联的报告变得更快、更灵活、被更广泛的使用,这些报告的主要用户——商业分析师们,仍然困扰于在大量信息中发现在报告中存在的最简单的模式。最重要的是,这些用户纠结于基于报告所包含的信息应该决定采取什么行动(参见图1的例子)。
随着更多数据的产生,我们已经可以更有效地管理数据所带来的开销,但是仍然挣扎于进行有效的数据分析
受到全球因特网的普及,它所带来的网络连通性的驱动,物联网之类的新领域产生的前所未见的海量数据,以及基于这些所创建的大量应用,使得我们被数据所淹没。快速数据和慢数据,简单数据和复杂数据,所有这些数据都是前所未有的大量。数据的量变的多大了呢?我们已经从在2014年产生大约5泽字节的非结构化数据到2020年将增加到大约40泽字节的非结构化(参见图2)。
特别是在上一个十年间,随着数据量变得更大,企业的IT策略核心变为用很少的资源做更多的事。公司的数据仓库开始面临两大问题。第一,其中的一些系统不能有效地管理所获取的海量数据,因而数据不能被应用有效的利用。第二,开销变得不能承受的高,成为数据管理方面另一大挑战。
与此同时,当新一代的数据管理软件(例如Hadoop)被谷歌、雅虎等重量级科技公司开发出来,一些“部分”解决方案开始出现。一开始,这些软件在商用硬件上运行,并且很快开源,从而使得企业可以以较低的开销来解决它们的大数据问题。Cloudera, Hortonworks以及一些其他提供开源软件服务的公司在大数据基础设施领域扮演了重要角色。我将这些解决方案称为“部分”是因为在管理数据的同时,这些系统并不包含企业所使用数据仓库系统的那些复杂的、专用的功能。但是这些新系统擅于构建数据湖泊,适用于多样化的大数据环境,并旨在通过更低的开销替代或增强某些类型的数据仓库。
尽管我们有效管理大数据开销的能力得到了改进,但是我们分析数据的能力,不计开销的情况下,仍然没有提升。尽管大众媒体宣称从数据中得来的认知结果将是新的石油(或金子,挑选你喜欢的隐喻),但市场研究公司IDC预测,到2020只有很少一部分采集的数据会被分析。我们需要分析更多抓取的数据,并从中提取更多的信息。
我们正在致力于改进我们分析数据的能力,但是面临着数据专业人员的短缺
为了收集和分析更多的数据,同时不放弃报告的生成,我们开始广泛采用机器学习和其他基于人工智能数据分析技术的自动化的信息抽取方法。然而,这些方法要求使用一类新的专业人员——数据科学家。尽管我们看到数据科学家的数量潮涌般增加,但是我们需要更多,并且,与正在产生的数据相比我们永远不能提供足够的数据科学家。麦肯锡曾估计,到2018年,美国将面临(大约14万至19万缺口)人才缺口,这些人拥有可以从收集的数据中提取认知结果的深度分析技能。我们还将缺少大约150万拥有量化分析技能的、可以基于数据科学家生成的大数据分析来做出重要商业决策的经理。
机器学习改进了我们发现数据中关联性的能力,但做出决策的要求的时间变短了,而数据产生的速度增加了
商业智能是一个出现了近40年的领域。统计分析和机器学习技术被使用的时间则更长。在这一时期,我们已经提升了我们从数据集中识别关联性的能力,但是做出决策的时间要求正在变短,而数据产生的速度不断增加。举例来说,公司的首席金融官们可能有一个月的时间来创建金融预报,然而一个自动的在线广告平台只有仅仅10毫秒的时间来决定把哪一个数字广告展现给特定的用户(参见图3)。此外,一个首席金融官仅需要参考几十亿字节的数据就可以得出决策,而在线广告系统不得不分析万亿兆字节的数据,大部分的数据还是近实时生成的。
在一些应用领域,简单地识别出数据集中的关联性对做出决策来说已经足够。在其中一些高价值高投资回报的领域,通过数据科学家和其他专业人员来从大量数据中抽取信息是合理且必要的。计算机安全威胁检测以及信用卡欺诈检测就是两个这样的领域。在这些领域里,作出决策的时间是非常短的,做出错误决定(过度保守)的代价,至少最初并不是非常高。将一个交易视作欺诈或者将一个行为视为安全入侵的代价也很低(例如持卡人的不便或是对于系统管理员的一些网络取证)。但是,没有检测到在已建立的行为模式中的异常的代价将会更高。
为了跟上大数据的节奏和改善我们对信息的使用,我们需要能快速而廉价地抽取相关性并将其与行动关联起来的应用
考虑到预期的数据科学家和具有量化分析能力的商业用户的短缺,以及我们迫切的继续挖掘已经收集到的海量数据的需求,我们要能更好地开发分析应用,使其能够生成认知并关联到行动上。这类应用,被我称为认知应用,将超远胜于从数据中抽取相关性。
我们已经在数据理解上取得了很大进展。我们已经降低了管理大数据的开销,与此同时改进了我们分析和提取关键信息的能力。但是,大数据的增量过快以至于我们不能通过更快或者更灵活的查询以及报告来紧跟步伐。我们需要能够创建廉价快速的可执行认知能力,特别是通过使用认知应用。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16