本文由经管之家小编整理自大数据工委会主任张华平在“2015中国数据分析师行业峰会”的演讲,如需转载请注明出处。
非常荣幸有这个机会跟大家来谈一谈非结构化大数据分析,今天我们讲到了很多数据分析。其实更多的层面,我听到的除了袁博士讲到的之外,我想跟大家分享一个概念。现在的大数据,可以说有结构化和非结构化的数据。结构化的数据大家比较清楚,比如说各种各样的数据库。这种数据库,现实生活中绝大部分数据是没有办法处理的,现在我们非结构化的数据规模是结构化数据的100倍以上,所以它的体量非常大。
我今天的题目主要跟大家讲社会化新媒体与非结构化大数据分析。其实我们在座的企业和这个也很像,我们先看一看网络发生了什么样的变化,最早的天涯,包括现在的微博、QQ、微信。现在我们发展到新媒体的时代,但是我们传统行业目前的模式还是什么样的状态呢?大家可以看到这是我们经常看到的场景,以后还会经常看到。
总体的感觉是,现在我们的网络3.0时代或者是我们到了社会化新媒体时代。但是我们政府的管理以及现在企业很大程度上还在1.0版本,企业稍微好一点充其量是在2.0版本。最直接的结果是当它们之间发生冲撞的时候会发生很多的矛盾和冲突,有很多匪夷所思的事情源于这两个版本不对等所造成的。
今天有很多人质疑大数据,到底什么是大数据?说难听一点,现在我听到更多的只有数据大,数据大并不是大数据。我来个举例子,比如说手机监控,手机监控的数据确实很大,它大到什么样的地步呢?我在央视专门做过一个解说,所有的实验我都做过,现在我们拿到的数据量还不算太大。
手机监控的原理我不解释了,我们来看一看,假如说每个人的手机,突然有一个人告诉我你出现在什么地方,这没有什么了不得的,用数据可以检索出来,仅此而已。如果这个归结为大数据,其实就差了很多。我们看这里面,这种表层的数据之后我们来做哪些事情。比如说我们可以推算出几个活动规律,比如说起床你的作息规律,包括一个官员什么时候去过澳门赌博,这里面的数据都可以发现。
除此之外,我们还可以推算出他的职业和性别。因为我们知道对性别的判别,其实在经济学系里是非常简单的问题。我们用贝叶斯,不需要那么多深入的分析的方法就可以非常高速的识别,我们的准确率大概95%以上,我们可以很清楚地知道女性和男性去的地方是不一样的。
更加恐怖的是,在这个过程当中我们可以分析出这个人整个的社交圈。比如说白天你更多是和你的合作伙伴在一起,如果是晚上,可能是和你的家里人在一起更多,我们看到大数据的洞察。我对大数据的理解,其实更多的是来源于我们用各种各样的数据对人进行完整的洞察。
一、社会化新媒体
所以我今天主要会跟大家分享社会化新媒体非结构化大数据、大数据搜索与挖掘关键技术,新媒体分析实战案例。社会化新媒体,大家可以看到现在的新旧媒体,包括《纽约时报》要抵押大楼,我们的彪哥要去收购大楼等等,我们可以看到这里面的变化,这原来是不可想象的事情。包括我们中央级的媒体也好不到哪里去,现在包括我们知道香港有很多传统比较好的报纸都处于倒闭的状态。是不是媒体不行了呢?其实恰恰相反,我们社会化的媒体,比如说《今日头条》,我们不生产新闻,我们只是做新闻的搬运工。所以这里面我们能看到全球的搜索市场变化,我们能够清楚地看到像Google它的搜索量,百度只是它的1/4。我们可以看到传统媒体央视,我们看2012年的百度,现在我们可以看到百度占的市场份额非常大,包括它的新媒体。
为什么会造成这种现象,我们做了一些分析可以看到,媒体内容的生产,实际上它的生产过程耗费非常大。在利益分配的时候是这么一个情况,生产远远小于品牌渠道,渠道远远小于品牌,品牌远远小于社群。比如说写书的不如卖书的,卖书的不如卖粉丝的。现在我们有更好的像《小时代》,主流媒体对它批判很多,但是一点不影响它的票房。我们看一下主要的原因在于传统媒体是内容为王,新媒体更注重用户。
我收集了一些传统媒体各种比较匪夷所思的事情。比如说有害气体,台北人民23年不吃不喝才能买得起房。当然还有一些更多的情况是这种的,比如说栾川风传溃坝的传说,还有就是三峡大坝可抵御百年一遇的大洪水,现在我们已经讨论了很多年。
社会化媒体,刚才讲到了什么是社会化媒体,我们简单的来讲,就是社会关系+传媒。传统媒体实际不太注重社会关系。我们可以看到,社会化媒体的发展历程,从1.0的BBS,到后期的即时通讯,再到Web2.0的博客,视频和社区,以及到现在的微博、微信,按照一些特点我就不去分析。
我们从信息传播的角度来看,传播的要素这是我们总结的图,比如主题,我想表达我的主题,时机,最后把这个信息传播给受众。最终传播的渠道就是我们所谓的媒介。
我们来比较一下,传统媒体和新媒体的差别在哪里?这里面我们要看到新媒体的内容是非正式的,大家来看为什么当年新浪极力推博客,博客始终火不了?微博和博客的差别在哪里呢?其实就是一个小的变化,说我们原来是要求像小学生写日记一样,写长篇大论,现在140字就可以了,这就导致了内容的非正式。还有这里是更多的多对多点,一个社交型的。尤其想强调的是现在在新媒体的环境下,它是一个对等交流,比如说我们CCTV和人民日报,它更多的是政治宣传,这就相当于它是一个在农村的大喇叭广播,我在这里广播,我不需要大家反馈,大家听着就好了。为什么现在一些政府,包括一些大的媒体在社交网络上已经成为了一个弱势群体,反而一些草根大V做的非常好,原因就在于他们没有把握他的场景变化。现在新媒体环境下更像是不站在台上讲,而是搬着椅子坐在你旁边讲。
我们再来看看内容的,这里有一些技巧,这有一个“三情”的理论。尤其现在比较火的传播,基本利用了人的基本需求,尤其是生理需求和安全需求。大家看一看现在很多的新闻网站,都在利用打擦边球,会经常放一个看上去,我刚刚还看了一条,让我们来看看河南的情色大片,点进去一看是它们很好的美景。安全需求,就是像你不转就不是中国人。还有就是在情绪方面的,具体在中国的表现就是仇官、仇富情绪。我经常举例子讲,如果我们想要攻击一个人,我们只需要说几句话就可以,说这个人开着玛莎拉蒂来上学,他的背景很深,具体有多深我不知道。这有两个就够了,这个过程当中,仇官仇富情绪一引发,这过程没有人追踪他是谁,所有的情绪都过来了。
还有像代入感,像我们现在经常传播的时候经常用的一些词:“深深震撼”、“激发梦想”、“乐享生活”。还有像我去要饭,左边说无家可归,帮帮我吧。右边说,如果你饿了,会怎么办?这个在新媒体上大家会经常用这样的技巧,就是让你感觉你在饥饿。还有我们经常看到手机发布会,说我的手机有什么样的技术参数,有64G闪存,其实这时候对64G都没有什么概念。还有其他的讲述的方式,我们可以看到好好学习的一些内容。再比如说漫画,这个实际在内容的传播方式也在发生变化。还有角色的扮演,还有很多话题,它的主题创意,我们常见的是像这种政府发的通知,说几层几层的紧急通知。实际上在我党历史上,传播最厉害的,就是打土豪分田地,六个字,一般农民都看懂了。这么多年来我们看到表叔,微笑局长,房姐,这就起到了很好的借用。
二、非结构化大数据
我们切入到非结构化大数据。我在说我看法之前给大家解释一下我所理解的大数据是什么,我所理解的是,大家能看到十几张图片实际上是一个普通的信息,我不用说要多大的数据,我十几张就Ok了。这样叠加在一起就产生一个1+1>2的效果,在这个过程中我们可以获取知识。实际上大数据的过程是信息叠加,产生知识的过程。
大数据给我们带来的是决策方式的变化。我们在决策的时候四个要素,主体、依据、机制、效率。像《富春山居图》,这很烂的片,当时它的票房很好,原因也很简单,它是一个审丑效应,大家都想看它有多烂,所以最后还是拿了那么高的票房。但是这个片子就没这么幸运了,《失孤》,它非得让大家来看,说刘德华扮演农民工是什么样子。大家看到,最终的票房也差,口碑也很差。原因很简单,它的决策流程是传统的小数据模式,就是因为我作为老板来说,我就喜欢刘德华,所以我非得选刘德华不可。当然也有好的例子,像唱小苹果的老男孩,这个实际上应用在业务库有一个三分钟的视频,有几百万人的访问,把这些人数据拿过来分析,这个是根据消费者,洞察他们的需求作出的决策。
有很多特征,我把它中国化的理解,实际上就是多快好省。大数据不是说投大量资金建立一个大数据中心,实际上现在大数据的技术和结构是能够以很小的性价比获得更好的价值。所有的大数据实际上是由无数的小数据组合而成,像袁博士讲到的大数据和小数据的差别。有时候大数据的精髓在小数据上。所以在认识的方式上,我们第一个,知著见微。知著就是宏观分析。最后一点,就是晓意,如果对语义不了解的话,有时候也理解不到。我们终极的目标是让计算机来自动理解人类的语言。最后,我们对客观世界的洞察,是我们通过人类自然语言来完成的。
我最终的结论,大数据更大意义上是非结构化内容的理解,因为结构化数据我们在大数据之前,我们通过数据挖掘各种各样工具,基本上来说没有新的问题和挑战了。我们最终的目标实际上就是我们希望从大数据里获得大的洞察力,这就实现我们去了解谁,什么时间,我们在做什么样的事情。
三、大数据搜索与挖掘关键技术
这里的关键技术,我给大家看一些例子。我们实验室的在线演示,我们来访问一下新浪新闻,我们就拿第一篇的新闻来说,我跟大家稍微解说一下。首先我们整个的分析平台,在这个地方是可以输入你任何网页,如果你不输入的话,我们系统可能是浏览器的问题会自动抓取一篇新浪网最新的文章,这是刚才的一篇文章,给大家展示一下。第一个,我们会把刚才的文章进行切分,比如说昨日,因为我们知道在中文里,我们是不做空格,之后再做色线标注。像这里的橘色表示的是时间,当讲到国务院李克强,李克强是人的名字,所以这里我们会做自动的识别,大家会看到,非结构化语义理解,完全的会直接的识别所有的这些工作。
另外,大家可以看到用户自定义词,这个过程当中你可以把自己专业的词汇定义进去。比如说华为,每一部新的手机都在用我们的工具,它定义了衣食住行各种各样的专业术语。比如跟美食相关的大概有几万个词,所以这里可以看到我们的分析。
前面都是自动生成的,大家可以访问我们的网址。这是一个词关联。这里面大家看到,比如,卡尔这个词我们会关联到卡尔马克思等等这样的词,对于这样的词我们会进行十几次的关联训练,所以每个词我们都会看到。
我们来看我们已经分析好的一个效果,这里展示的是这篇文章当中出现了哪些人,哪些地方和哪些机构,以及有哪些主题,这个会自动的计算出来。对词的理解上面,我们很多情况下是需要了解名词、动词、形容词的变化,还有一些情感分析,我们会分析出这篇文章是正面的还是负面的情感,同时可以输入一个产品,能够把这个文章对这个产品的正负面做一个计算。还有自动的打拼音,还有我们一篇文章可以用250个字或者300个字,把你的意思做一个自动的摘要。
这里我介绍一下我们做的一套大数据搜索引擎。像语法,我就一些负面消息,这个负面消息要在12次以上等等,这里可以看到一些效果。像搜查土豆,会出马铃薯,并且对搜索进行分类。一旦这里的数据发生变化,我们10秒钟内就会体现出来。还有对维吾尔语的搜索。我们还提供了二次开发包,现在在Linux等等上面都可以使用我们的系统。还有像对十八大理解和科学发展观等等都是自动算出来的。以及自动的发现甲流的问题,还有用我们的工具做用户的画像,我们还会分析人的情绪变化,大家看到蓝色部分的人情绪波动非常厉害,还有我们对价值观的分析,我们看到比如说我们刚刚宣判的郭美美,我们计算的结果,就是她的安全项非常低,所以她的一些行为大家容易理解,极度自卑会导致她用炫耀的方式来弥补。
四、新媒体分析实战案例
后面的案例部分,我们把马英九两年来两次的就职演说做一个对比。我们大家看一看,两岸的问题变得越来越重要。比如说把汪峰所有的歌拿过来,最后可以写一个汪峰的歌。比如说国家气象局,我们把过去五年以来所有的天气预报做了一个分析。在社交网络上专门抓失独老人这个词,主要的技术方案实际上是利用内容和社会关系。大家可以看到左边所有的变化是我们会根据已有的关系来发现亲人。
简单来讲,我们建一个候选人名单,如果候选人名单里面有三个这个不是偶然现象。现在我们在社交网上有一万多个失独老人。这是新媒体的编辑器,这是地域划分,包括在国内,以及在美国和国外分布的情况。这张图大家可以看清楚,这是草根的观点,以及所有大V的观点和媒体的观点。中国地图表示的是中国国内和体制内的媒体对这件事情的评价,这是国际媒体。大家基本上可以看到国际媒体和国内媒体关注点完全不一样。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06在备考 CDA 考试的漫漫征途上,拥有一套契合考试大纲的优质模拟题库,其重要性不言而喻。它恰似黑夜里熠熠生辉的启明星,为每一 ...
2025-03-05