网络数据挖掘应用与限制
我们的社会,有两个舆论场——即官方和民间。意思就是说官方舆论场是铁板一块,民间舆论场对于官方的舆论场,又是铁板一块,我对这个很好奇。难道民间舆论场都是一样的吗?这个舆论场里面有没有差异?关于舆论场上的网民是怎么样分类的,我们尽管有各种各样的说法,但是没有一个让人信服的说法,所以我想探讨这个问题。
所以我就想来探讨这么一个问题,就是说我们的网民类型是如何分布的。社交舆论整个是一个结构,但是,它是不是我们所想象的这么一个结构。这是我想探讨的这么一个最早我最初的一个命题,是一周前我根据参考数据做出来的。
第二个问题,我想做的是我们现在都在说谣言,媒介内容里有很多的谣言。社交媒体上有很多的谣言,那么这个谣言究竟是怎么样的、哪一种、是不是所有的民众对所有的信息都能完全一样的相信,还是对不同类型的信息有不同的判断力。这个就涉及到一个概念,就是说媒介素养。简单说,就是民众面对媒介内容的选择、质疑、理解、评估的能力。
我提出这么一个问题,就是说网民的媒介素养的信息的辨别力,究竟是什么样的;此外,我想研究第二个问题,就是说网民的媒介素养和信息的辨别力,是怎么样来辨别的,人们对于不同的类型谣言的辨别力有多高。
我想探讨的第三个问题是,不同类型的网民的信息辨别力。刚才我讲的第一个问题是,网民有不同的类型,不同的类型的网民对信息的辨别力的水平是怎么样的,是哪一种类型的网民的信息辨别力更高。
这里我想知道我们传统媒体,电视广播和是一面理,在微博里面我们经常捕捉到不同的信息,那是两面理。这样来说,网民接触的不同的媒介,对他的信息的辨别力是怎么样的。
我想探讨四个问题。对此,我用一个全景的调研助手,做了一个网络流量的截取的样本,我采集的北京、上海、广州、四川地区共3696份样本,来探讨以下问题。
第一个是网民的类型。我们做了这么一个二维划分。我用信任度和活跃度把网民分为两类。活跃度是指网民在社交媒体如论坛、微博、QQ、微信的活跃情况。我的纵坐标是信任度,这是指对政府的信任程度。这样的话我们把整个的网民切分为四类。
在第一象限和第四象限的网民就是活跃者,即活跃的拥政者和批政者。很信任政府、又很活跃的用户就是活跃的拥政者;很活跃、又不相信政府就是活跃的批评者。第二象限和第三象限均是沉默的拥政者,另外是我不相信政府我不表达,沉默的批评者。这四个维度我来测量,考虑用户们在网络上发微博,写评论,然后发朋友圈,然后微信中发言,发QQ空间,QQ群发言,论坛发帖,博客。所有的网民,主要能够在网上表达语言的渠道,我们把这个测量体系作为一个指标进行合总。我们从刻度来看,从高到低,网民是怎么样的来分布的。
第一个我做了一个横坐标是网民的活跃度。第二个是对政府的信任度。那么关于政府的信任度我就做了两个指标,第一个是对政府的信任,第二个是对政府官员的信任。因为我们对政府的信任和对政府官员的信任往往是不一样的。我们曾经在区伯长沙嫖娼的时候,做过有关于网民对政府的信任度的调查,发现大家对中央和地方的政府的信任度不一样,对政府官员的信任度也是不一样的。所以,我们就是两个维度,一个是对政府的信任度,对政府官员的信任度,把两个指标合在一起,作为我们的纵坐标,这样以后得到这么一个数据。
活跃的拥政者是17.4%,活跃的批评者23.4%,就是说明批评者比拥政者更多。我们沉默的大多数是60%,不管是批评还是说支持政府,沉默的人是60%,我们有40%是活跃的,这是我们整个的网民的结构。总的来说40%里面批评政府的更多一点,更活跃一点,这是我们第一个数据。
我们看看四个地区的比较,在四川、北京、广东、上海怎么样?我们发现四川和北京批评的比较高的,是30%,上海最低,24%。这是有很多的解释,文化、政治、经济学等不同的学者都来解释,而我们做的,只是提出来这个现象。
这是第一个问题,我们可以把网民划分为四个维度,这四个维度的结构是怎么样。而我想研究的第二个问题,即是网民对于信息的辨别力。
我们用了十个谣言作为选题,比如说马航M370找到了,淘宝衣服来自于藏尸间等等,这样真真假假的新闻来让网民做判断,你认为哪一个是真的,哪一个是假的,你答对一道题得一分,答错了零分,我们把这四道题合起来是十分,最低是零分,我们连起来测量信息的辨别力多高。测完了以后我们发现这样一个现象:就是说环境的相关问题,比如说雾霾。雾霾多半是因为污染,网民在环境的问题上的辨别力是最高的。但是对于”马航M370被找到”信息的辨别力是最低的,只有15.2%;还有对“淘宝衣服”的辨别力都是很低的。
就是说的信息辨别力并不是铁板一块,也是有高有低的。我们也会做信息对称的分别,我们会关注哪一种类型是高的,哪一种类型是低的。
在总的得分上,受访者对于十道题的平均分是4.5分。就是说整个网民的信息的辨别力不是很高。
这里还有一个问题,区域的差异。我们来看看北京和上海,大城市的信息辨别力是较高的,而四川和广东最低。北京和上海是平均4.96,四川和广东是4.68和4.65。
第三个问题我想探讨的是不同类型的网民的信息辨别力。我们把这个沉默这部分人做了一个亚变量,我们把批评者作为一个虚拟变量来测量。我们发现这两个之间是有显著的,都是辨别力的变量是显著的负关系,也就是说越是活跃的批评者,越是活跃的拥政者,他们对信息的辨别力都是低的。那么低到什么程度,我们来看,你看沉默者,两个沉默者都是明显的高的,沉默的批评者是最高的,达到4.94;对信息的判断力,沉默的拥政者是4.98,活跃的拥政者对信息的判断力是最低的,这要引起我们的注意。活跃者总体是低的,而沉默者在互联网里边是高的,这是整个的信息的判断。这是一个有趣的问题。
我想探讨的是第三个问题,如果我们把沉默者和拥政者的类型控制住以后,我们来看媒体的使用会怎么样,是不是会影响它的判断。我们来看媒介的使用。
于是把报纸、电视、博客、微博、微信、QQ空间和论坛,新闻论坛,翻墙等变量拉进去以后,我们发现微博对于信息的判断和辨别力有明显的正影响。而我们的QQ空间是负影响,翻墙是负影响,负关系。换句话说,我们报纸、电视传统媒体对我们信息的辨别力没有显著性的帮助,微信也没有帮助,微信也不显著,论坛、新闻网站都不显著。所以这里特别有趣的是微博和我们QQ空间和翻墙,一个是正相关的,两个是负相关。还有文化程度我们是显著性的相关,很简单,文化程度越高对信息的辨别力就越高,这个和收入也没有关系。这是我们这样一个结果。微博是有显著性的关系,而论坛和翻墙我们是负相关,这样的一个结果。这里是我们的一个研究的这么一个发现,我们发现有这么一件事,这里边我想特别来看看这个结论。
结果讨论,第一社交媒体的网民,不是一个恐惧的整体,活跃的不是政府的,是近四分之一的,活跃的政府的比例也有近两成,近十七点几。这是一个相对均衡的点。
第二点我们想说的是网民对信息的辨别力的差异是很大的,我们想做的可能是对我们的环境污染等等的信息我们的辨别力很高,但是对于国际新闻,或者是说离我们距离远的新闻我们辨别力很弱,这个方面的地理位置的接近性在生物学里面以前有很多的文献,在英文里面也做过信息的辨别力的影响,这一块里面也是一样的,这是差不多的。
第三个问题我想探讨的是活跃的网民总体上比不活跃的网民辨别力低,我不知道是什么原因,也就是说网民越活跃,活跃的网民比沉默的网民对信息的辨别力是低的,这个原因是什么,在我们研究里面没有解释,下一步我们会探讨为什么会这样。
第四个问题是文化程度是网络信息辨别力一个重要的正影响的变量,这个是非常好理解的,文化程度越高的人,对信息的辨别力是越高的。我们经常看到微信的朋友圈里,很多的谣言,对此传得最厉害的是我的表哥和表弟,他们在老家,小学毕业文化,我总是批评他们,他们就说这都是真的。这就是一个信息辨别力的问题。
这里还有一个QQ空间和境外网站的解除对辨别力是负影响,但是两者背后的原因是不一样的,我觉得这是我在这里抛砖引玉,也是一个命题,怎么会不一样。QQ空间可能是年轻人的,为什么它的使用和境外的网站都是负影响,但是背后的原因是不一样的。特别我想提出下面一个问题,微博的借助对信息的辨别力存在显著性的正影响。
一定意义上讲,微博是谣言的粉碎机。也就是说我们的微博有自清功能和手电功能。就是说微博的使用对谣言有验证机制的。关于解释,我们可以做更多的验证,而且我们数据里面非常有显著性的。
我想思考的最后一点,是微信对于网民的信息辨别力没有影响。也就是说微信是一个封闭的群体。这个群体里面信者恒信,不信者恒不信。这是按照现实的交往关系结成的关系。我们去年做过微信的社会资本研究。我们提出,微信朋友圈显示的是社会关系的一种搬迁,其实并没有更多的实现我们虚拟空间的社会关系的建构。这种搬迁将我们的现实,物以类聚,人以群分。我们用的最多的是同事圈,朋友,同学圈,我们家庭圈应付一下,很多年发一个红包或者是发一个照片:“我很安好”。这样的事情,我们交流的时候还是现实里面的人群结构转移到上面去的,他们没有真正的是一种很重要的虚拟的社会责任。
这就提出一个问题,微信圈里面低学历者,他们对信息的判断和辨别力,反而有一种群体效应,每个人在发假信息的时候,反而互相都信任,互相形成一个气场
数据分析咨询请扫描二维码
在当今以数据为导向的商业环境中,数据分析师的角色变得越来越重要。无论是揭示消费者行为的趋势,还是优化企业运营的效率,数据 ...
2024-11-17在当今以数据为导向的商业环境中,数据分析师的角色变得越来越重要。无论是揭示消费者行为的趋势,还是优化企业运营的效率,数据 ...
2024-11-17金融数学是一门充满挑战和机遇的专业,它将数学、统计学和金融学的知识有机结合,旨在培养能够运用数学和统计方法解决复杂金融市 ...
2024-11-16在信息时代的浪潮中,大数据已成为推动创新的重要力量。无论是在商业、医疗、金融,还是在日常生活中,大数据扮演的角色都愈发举 ...
2024-11-16随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15在快速演变的数字时代,数据分析已成为多个行业的核心驱动力。无论你是刚刚踏入数据分析领域,还是寻求进一步发展的专业人士,理 ...
2024-11-15Python作为一种通用编程语言,以其简单易学、功能强大等特点,成为众多领域的核心技术驱动者。无论是初学者还是有经验的编程人员 ...
2024-11-15在当今数据驱动的世界中,数据分析已成为许多行业的基础。无论是商业决策,产品开发,还是市场策略优化,数据分析都扮演着至关重 ...
2024-11-15数据分析作为现代商业和研究领域不可或缺的一部分,吸引了越来越多的初学者。然而,自学数据分析的过程中,初学者常常会遇到许多 ...
2024-11-15在当今的数据驱动世界中,机器学习方法在数据挖掘与分析中扮演着核心角色。这些方法通过从数据中学习模式和规律来构建模型,实现 ...
2024-11-15随着数据在各个行业的重要性日益增加,数据分析师在商业和技术领域的角色变得至关重要。其核心职责之一便是通过数据可视化,将复 ...
2024-11-15数据分析师的职责不仅仅局限于解析数据和得出结论,更在于将这些复杂的信息转换为清晰、易懂且具有影响力的沟通。良好的沟通能力 ...
2024-11-15数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14