重视非结构化数据分析 走出两大“经典”误区
虽然基本上国内大部分公司,言必提“大数据”,但是对于大部分CIO、CTO们来说,对数据的分析仍然停留在过去的阶段:对于非结构化数据分析的成熟度还远远落后于结构化数据。
但是现在移动端所带来的爆发式增长给大数据从业者带来了非常大的挑战,这些数据有很多是非结构化数据,充斥了人们交流的空间,相应的,对非结构化数据的分析也变得越来越重要——对非结构化数据进行分析、提取出有价值的东西,成为CIO、CTO们最关注的问题。
但是目前,很多人仍有非结构化数据分析等同于舆情分析的粗暴认知。
非结构化数据分析就是舆情分析?错!
“非结构化数据分析就是舆情分析,这个技术中国现在已经发展的很快了。”类似这样的言论在CIO、CTO们的交流中屡见不鲜。
但是美国数据分析科学家、美国非结构化数据分析鼻祖企业Taste Analytics创始人及全美五大可视化研究中心的Derek Wang(汪晓宇)博士告诉记者,事实上这是完全不对的,舆情分析其实仅是非结构化数据分析的一部分。
舆情分析,是人们通过先前经验制定监控的KPI以及监控模型,而后通过模型预知和监控未来风险的过程。
但是真正的非结构化数据分析,是一个由数据驱动(Data-driven)的语义分析加舆情分析的整体过程,这比单纯的舆情分析更具科学性,内涵更丰富。
首先,舆情分析具有滞后性,而非结构化数据分析具有前瞻性。
舆情分析是一个先建词库、后验证的过程。举例来说,比如公司要监控某次危机,舆情分析就需要先将与这个危机有关的词汇建立到学习范本里,一旦随后的搜索监控结果与范本里的词汇有所匹配,那么就说明已经出现了这个趋势。
可以看到,这是一个后验的过程,但是,非结构化数据分析则是机器从未知的数据里实时提取出重要的关键信息,作为未来舆情建模的基础性标准,具有明显的前瞻性。
“语义分析其实是舆情分析的对立面。舆情是你知道这件事再去监测,而非结构化数据分析则是不知道的时候去挖掘、建立监测的模型。一旦数据容量呈爆炸式增长或流行词汇更新换代,非结构化数据分析可以实时更新学习范本,重新定义监控模型。”Derek Wang博士说。
第二,舆情分析会依赖于人们的经验来建立模型,而非结构化数据则是数据驱动,更为客观科学。
“虽然舆情监控也有机器学习的技术在里面,但是最大不同在于,它是一个后验的过程。”Derek Wang博士说,“这要求人们先要有这个经验去建模和监测。”
而语义分析是非结构化数据分析里的一个重要部分,相对于舆情分析需要先建立相关的词汇库,语义分析则是一个用机器学习的方法从数据源里提取出关键信息的过程。由于它是通过统计学和深度学习的方法产生,所以能保证科学性,更客观自然地把文档里的关键信息提取出来。
第三,人机互动可以补足技术短柄。
真正的非结构化数据分析,比如Taste Analytics研发出来的技术,不仅包括舆情分析和语义分析,更为关键的是,还加上了人机互动的创新机制,涵盖了整个非结构化数据分析全过程——从语义分析到人机互动,再到舆情分析,三者缺一不可。
据记者了解,目前美国工业界已经充分认可了这种三位一体的非结构化分析理念:在语义分析的结果基础上,企业内部分析师对机器学习的结果进行学习和KPI筛选,而后再建立舆情模型,进行长时间监控。
这样合理地整合“舆情”加“语义”两大技术系统,再把企业内部分析师的主观能动性有机结合起来,才能实现客观的数据分析。
美国一家知名银行的受访人士也表示,此前他们委托第三方建立的舆情体系,其实最终效果并不让人满意。“按照人为经验建立的舆情体系下,监控和分析的结果都很片面,”对方称,“所以我们最终还是转向了Taste Analytics结合舆情、语义和人机互动的更加客观高效的非结构化数据分析服务。”
非结构化数据分析就是情感分析?错!
不仅国内,即使在美国,非结构化数据分析也属于非常前沿的技术,企业简单粗暴地把非结构化数据分析等同于舆情分析的也不在少数。他们甚至还走入了另外一个误区:把非结构化数据分析和原来美国流行的情感分析也混为一谈。
美国很多企业都和客户关系很紧密,非常注重客户的反馈。而情感分析就是这样应运而生的:它让机器试图理解人说的这段话是正面、褒义的,还是负面、贬义的。
很多美国企业在过去3、4年里,都把所谓的非机构化数据分析,当成情感分析。但是,即使是业界最高水平,也仅仅能够把用户情感度划分成11个层级,来让机器了解人们对这个产品是喜欢、还是讨厌,却无法真正让企业理解用户的深层次需求。
Derek Wang博士介绍说,情感分析的局限性非常大,最多只能作为企业数据分析的一个参考指标,而不能保证100%正确。
比如,嘲讽的语气就是机器无法识别的。美国就曾有公司过于信赖情感分析模型,完全错把顾客的嘲讽当成夸赞,搞反了产品研究的方向。
另外,情感分析缺乏对客户想法的深入挖掘。
机器可以尝试对喜恶赋值,但是这一数值没有办法为企业解释上下文是什么,也就是说永远搞不清客户为什么而喜欢/讨厌它,这样一来情感分析的参考价值就大大缩水。
但是,非结构化数据分析却可以实现“溢价分析”,也就是说,它不仅可以告诉企业客户的情感度多少,还能指出客户在哪里有情感不满。这样就为企业提供了科学的决策辅助工具,有助于企业在今后有效地提升用户满意度。
“我们的语义分析可以把很多种自然语言分析模块有机结合在一起,把自然语言学习、分词、聚类、情感分析都立体整合,把整体化的语义分析带给市场。” Derek Wang博士介绍说,“这其实也是非结构化数据分析和传统情感分析最大的不同。”
海量的客户需求,巨大的市场空白
据IBM商业价值研究院和牛津大学赛德商学院共同发布的《分析:大数据在现实世界中的应用》显示,全球仅四分之一的受访者表示自己具备了分析高度非结构化数据的能力,而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。
事实上,任何需要和客户直接打交道的企业,都应该从现在开始,重视非结构化数据分析的重要性。
为什么呢?至少有两点显而易见的理由。
首先,非结构化数据分析可以排查出致命纰漏,保住了企业的“底线”。
企业服务里可能存在很多难以察觉但是致命的纰漏,用别的方法是很难排查的。比如,美国某著名家电厂商CIO就告诉记者,他们在启用The Taste Signals Platform的第一天,就发现了一年以来客户邮件一直在抱怨的一个小纰漏,从而及时挽回了品牌声誉。
其次,非结构化数据分析提升了企业客户服务的效率。
目前,大多数企业已经建立了多个客户沟通渠道,平均下来有6-7种之多。企业每天都要安排大量的客服人员和客户沟通,但是却“治标不治本”。
企业对客户投诉等这些典型的非结构化数据的分析很少,更多的是疲于解决问题,而不是找到投诉背后的主要原因,而从根本上解决它。
“很多时候,客户一抱怨,客服就是去安抚,甚至安排退货,很少有企业来看说每月为什么有退货,而只是在被动解决问题。”Derek Wang博士表示,“而非结构化数据分析,对客户的抱怨不仅知其然,更将其作为分析结果呈现给企业,企业可以做出改进,从而从根本上解决大批客户的抱怨,大大提升了客户满意度。”
“事实上,不仅如此,以美国企业的经验来看,数据驱动的科学的非机构化数据分析,可以帮助企业提升内部分析师的效率,并且实现明显的商业价值。”Derek Wang博士表示。
目前,中美企业都意识到了非结构化数据分析的重要性,但是苦于市场上几乎没有成熟的解决方案。
Derek Wang博士也表示,排除BAT之外,能够在内部建立非结构化数据分析团队的公司,几乎可以称得上凤毛麟角,很多都是交给第三方服务公司。但问题在于,很少有第三方公司可以完全独立承担非结构化数据分析服务,而且技术也远远不能满足现在企业的需求。
另外,即使有一些非结构化数据分析的工具,由于它们都不是给最终用户设计的,所以普遍都很难用,需要长时间对员工下进行培训,这样产生的经济价值很小。
“CIO们几乎都没有一个工具,可以来调动员工分析数据的热情。而让第三方给他们提供的话,效果也不好。”Derek Wang博士说,“很多时候很多大数据分析工具看起来卖相很好,但是很难被大范围使用,这是企业的损失。”
美国率先实现非结构化数据分析
尽管企业对非结构化数据分析有很大的需求,但是这个市场几乎是一片空白,而由美国夏洛特图像可视化中心的几个年轻的科学家成立的Taste Analytics,看到了这个领域的巨大潜力,决定用自己的研究成果来颠覆传统的数据分析服务。
目前已有6家福布斯全球500强公司以及多家美国主流企业都采用了Taste的新型非结构化数据分析平台The Taste Signals Platform,而且他们的销售额在以400%的速度增长。
“Taste Analytics的优势非常明显,他们可以对数据、文字以及语音进行实时分析,结合了舆情分析、语义分析、人机互动三重机制,再加上可视化分析结果和简单易用的使用界面,他们不仅能帮助企业了解新的市场增长点、做出正确的决策,而且可以充分调动数据分析师们的积极性。”业内专家表示。
另外,Taste Analytics的服务适用于各种非结构化数据分析场景,只要有聊天记录、对话记录和邮件记录,他们的服务就可以和数据源直接对接,非常易用而且安全。
“我们也给中国企业提供了非常本地化的服务。从安全角度来说,如果是企业内部的私有数据,我们可以把平台放到企业防火墙内或者内部云里;如果是外部数据,我们的爬虫会自动抓取这些数据,”Derek Wang博士说,“我们一直希望的就是,让企业用最小的付出,得到最好的结果。”
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16