
网络数据挖掘应用与限制
我们的社会,有两个舆论场——即官方和民间。意思就是说官方舆论场是铁板一块,民间舆论场对于官方的舆论场,又是铁板一块,我对这个很好奇。难道民间舆论场都是一样的吗?这个舆论场里面有没有差异?关于舆论场上的网民是怎么样分类的,我们尽管有各种各样的说法,但是没有一个让人信服的说法,所以我想探讨这个问题。
所以我就想来探讨这么一个问题,就是说我们的网民类型是如何分布的。社交舆论整个是一个结构,但是,它是不是我们所想象的这么一个结构。这是我想探讨的这么一个最早我最初的一个命题,是一周前我根据参考数据做出来的。
第二个问题,我想做的是我们现在都在说谣言,媒介内容里有很多的谣言。社交媒体上有很多的谣言,那么这个谣言究竟是怎么样的、哪一种、是不是所有的民众对所有的信息都能完全一样的相信,还是对不同类型的信息有不同的判断力。这个就涉及到一个概念,就是说媒介素养。简单说,就是民众面对媒介内容的选择、质疑、理解、评估的能力。
我提出这么一个问题,就是说网民的媒介素养的信息的辨别力,究竟是什么样的;此外,我想研究第二个问题,就是说网民的媒介素养和信息的辨别力,是怎么样来辨别的,人们对于不同的类型谣言的辨别力有多高。
我想探讨的第三个问题是,不同类型的网民的信息辨别力。刚才我讲的第一个问题是,网民有不同的类型,不同的类型的网民对信息的辨别力的水平是怎么样的,是哪一种类型的网民的信息辨别力更高。
这里我想知道我们传统媒体,电视广播和是一面理,在微博里面我们经常捕捉到不同的信息,那是两面理。这样来说,网民接触的不同的媒介,对他的信息的辨别力是怎么样的。
我想探讨四个问题。对此,我用一个全景的调研助手,做了一个网络流量的截取的样本,我采集的北京、上海、广州、四川地区共3696份样本,来探讨以下问题。
第一个是网民的类型。我们做了这么一个二维划分。我用信任度和活跃度把网民分为两类。活跃度是指网民在社交媒体如论坛、微博、QQ、微信的活跃情况。我的纵坐标是信任度,这是指对政府的信任程度。这样的话我们把整个的网民切分为四类。
在第一象限和第四象限的网民就是活跃者,即活跃的拥政者和批政者。很信任政府、又很活跃的用户就是活跃的拥政者;很活跃、又不相信政府就是活跃的批评者。第二象限和第三象限均是沉默的拥政者,另外是我不相信政府我不表达,沉默的批评者。这四个维度我来测量,考虑用户们在网络上发微博,写评论,然后发朋友圈,然后微信中发言,发QQ空间,QQ群发言,论坛发帖,博客。所有的网民,主要能够在网上表达语言的渠道,我们把这个测量体系作为一个指标进行合总。我们从刻度来看,从高到低,网民是怎么样的来分布的。
第一个我做了一个横坐标是网民的活跃度。第二个是对政府的信任度。那么关于政府的信任度我就做了两个指标,第一个是对政府的信任,第二个是对政府官员的信任。因为我们对政府的信任和对政府官员的信任往往是不一样的。我们曾经在区伯长沙嫖娼的时候,做过有关于网民对政府的信任度的调查,发现大家对中央和地方的政府的信任度不一样,对政府官员的信任度也是不一样的。所以,我们就是两个维度,一个是对政府的信任度,对政府官员的信任度,把两个指标合在一起,作为我们的纵坐标,这样以后得到这么一个数据。
活跃的拥政者是17.4%,活跃的批评者23.4%,就是说明批评者比拥政者更多。我们沉默的大多数是60%,不管是批评还是说支持政府,沉默的人是60%,我们有40%是活跃的,这是我们整个的网民的结构。总的来说40%里面批评政府的更多一点,更活跃一点,这是我们第一个数据。
我们看看四个地区的比较,在四川、北京、广东、上海怎么样?我们发现四川和北京批评的比较高的,是30%,上海最低,24%。这是有很多的解释,文化、政治、经济学等不同的学者都来解释,而我们做的,只是提出来这个现象。
这是第一个问题,我们可以把网民划分为四个维度,这四个维度的结构是怎么样。而我想研究的第二个问题,即是网民对于信息的辨别力。
我们用了十个谣言作为选题,比如说马航M370找到了,淘宝衣服来自于藏尸间等等,这样真真假假的新闻来让网民做判断,你认为哪一个是真的,哪一个是假的,你答对一道题得一分,答错了零分,我们把这四道题合起来是十分,最低是零分,我们连起来测量信息的辨别力多高。测完了以后我们发现这样一个现象:就是说环境的相关问题,比如说雾霾。雾霾多半是因为污染,网民在环境的问题上的辨别力是最高的。但是对于”马航M370被找到”信息的辨别力是最低的,只有15.2%;还有对“淘宝衣服”的辨别力都是很低的。
就是说的信息辨别力并不是铁板一块,也是有高有低的。我们也会做信息对称的分别,我们会关注哪一种类型是高的,哪一种类型是低的。
在总的得分上,受访者对于十道题的平均分是4.5分。就是说整个网民的信息的辨别力不是很高。
这里还有一个问题,区域的差异。我们来看看北京和上海,大城市的信息辨别力是较高的,而四川和广东最低。北京和上海是平均4.96,四川和广东是4.68和4.65。
第三个问题我想探讨的是不同类型的网民的信息辨别力。我们把这个沉默这部分人做了一个亚变量,我们把批评者作为一个虚拟变量来测量。我们发现这两个之间是有显著的,都是辨别力的变量是显著的负关系,也就是说越是活跃的批评者,越是活跃的拥政者,他们对信息的辨别力都是低的。那么低到什么程度,我们来看,你看沉默者,两个沉默者都是明显的高的,沉默的批评者是最高的,达到4.94;对信息的判断力,沉默的拥政者是4.98,活跃的拥政者对信息的判断力是最低的,这要引起我们的注意。活跃者总体是低的,而沉默者在互联网里边是高的,这是整个的信息的判断。这是一个有趣的问题。
我想探讨的是第三个问题,如果我们把沉默者和拥政者的类型控制住以后,我们来看媒体的使用会怎么样,是不是会影响它的判断。我们来看媒介的使用。
于是把报纸、电视、博客、微博、微信、QQ空间和论坛,新闻论坛,翻墙等变量拉进去以后,我们发现微博对于信息的判断和辨别力有明显的正影响。而我们的QQ空间是负影响,翻墙是负影响,负关系。换句话说,我们报纸、电视传统媒体对我们信息的辨别力没有显著性的帮助,微信也没有帮助,微信也不显著,论坛、新闻网站都不显著。所以这里特别有趣的是微博和我们QQ空间和翻墙,一个是正相关的,两个是负相关。还有文化程度我们是显著性的相关,很简单,文化程度越高对信息的辨别力就越高,这个和收入也没有关系。这是我们这样一个结果。微博是有显著性的关系,而论坛和翻墙我们是负相关,这样的一个结果。这里是我们的一个研究的这么一个发现,我们发现有这么一件事,这里边我想特别来看看这个结论。
结果讨论,第一社交媒体的网民,不是一个恐惧的整体,活跃的不是政府的,是近四分之一的,活跃的政府的比例也有近两成,近十七点几。这是一个相对均衡的点。
第二点我们想说的是网民对信息的辨别力的差异是很大的,我们想做的可能是对我们的环境污染等等的信息我们的辨别力很高,但是对于国际新闻,或者是说离我们距离远的新闻我们辨别力很弱,这个方面的地理位置的接近性在生物学里面以前有很多的文献,在英文里面也做过信息的辨别力的影响,这一块里面也是一样的,这是差不多的。
第三个问题我想探讨的是活跃的网民总体上比不活跃的网民辨别力低,我不知道是什么原因,也就是说网民越活跃,活跃的网民比沉默的网民对信息的辨别力是低的,这个原因是什么,在我们研究里面没有解释,下一步我们会探讨为什么会这样。
第四个问题是文化程度是网络信息辨别力一个重要的正影响的变量,这个是非常好理解的,文化程度越高的人,对信息的辨别力是越高的。我们经常看到微信的朋友圈里,很多的谣言,对此传得最厉害的是我的表哥和表弟,他们在老家,小学毕业文化,我总是批评他们,他们就说这都是真的。这就是一个信息辨别力的问题。
这里还有一个QQ空间和境外网站的解除对辨别力是负影响,但是两者背后的原因是不一样的,我觉得这是我在这里抛砖引玉,也是一个命题,怎么会不一样。QQ空间可能是年轻人的,为什么它的使用和境外的网站都是负影响,但是背后的原因是不一样的。特别我想提出下面一个问题,微博的借助对信息的辨别力存在显著性的正影响。
一定意义上讲,微博是谣言的粉碎机。也就是说我们的微博有自清功能和手电功能。就是说微博的使用对谣言有验证机制的。关于解释,我们可以做更多的验证,而且我们数据里面非常有显著性的。
我想思考的最后一点,是微信对于网民的信息辨别力没有影响。也就是说微信是一个封闭的群体。这个群体里面信者恒信,不信者恒不信。这是按照现实的交往关系结成的关系。我们去年做过微信的社会资本研究。我们提出,微信朋友圈显示的是社会关系的一种搬迁,其实并没有更多的实现我们虚拟空间的社会关系的建构。这种搬迁将我们的现实,物以类聚,人以群分。我们用的最多的是同事圈,朋友,同学圈,我们家庭圈应付一下,很多年发一个红包或者是发一个照片:“我很安好”。这样的事情,我们交流的时候还是现实里面的人群结构转移到上面去的,他们没有真正的是一种很重要的虚拟的社会责任。
这就提出一个问题,微信圈里面低学历者,他们对信息的判断和辨别力,反而有一种群体效应,每个人在发假信息的时候,反而互相都信任,互相形成一个气场
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08