研究人员用数据统计的方法来做文学研究
大数据与文学,一个是理性工具,一个是感性思维,看起来似乎不沾边。但如今,二者的联系却日渐紧密起来,也由此引发了不少争议。
谁是最爱往外跑的诗人?
唐宋时期最爱往外跑的诗人是谁?答案可能是苏轼。
打开“唐宋文学编年地图”,点击苏轼的名字,地图上立刻显示出密密麻麻的足迹,西到雅安,东到蓬莱、青浦,北到定州,南到海南南部的陵水。从青年时代开始,苏轼的脚步就一直没停过,在他58岁那年甚至一口气走了31个地方,堪称中国古代一股“行走的力量”。
“苏轼一生的轨迹信息高达近万条,遍布全国各地,是我们录入信息最多的一位唐宋诗人。”“唐宋文学编年地图”的建立者、中南民族大学教授王兆鹏告诉《中国科学报》记者。
“唐宋文学编年地图”在今年3月上线,是王兆鹏主持的国家社科基金重大项目“唐宋文学编年系地信息平台”的一个研究成果。这个电子地图的形成花费了五年的时间,100多人的团队参与其中,负责数据的整理编写,融合了地理信息系统、测绘、计算机、文学等多个领域的内容。
目前,这份地图已录入了100多位唐宋诗人的行迹信息,范围北至蒙古乌兰巴托,南至越南清化。点击任何一位诗人的名字,地图上就会出现他一生的行走路线图,再点击任一地点,这位诗人在此创作的诗歌作品就会展示出来。如以地点或年份为关键词进行检索,则会看到某地在某个时间段共有多少位诗人来过、留下了哪些作品。于是从地图上,我们可以看到,李白出生于西域碎叶城(今吉尔吉斯斯坦托克马克市),王维出生于晋中,12岁的孟浩然在襄阳居乡读书,45岁的宋之问则从郑州来到洛阳又到西安,写下了多首诗作。“这张地图的最大亮点就是打通了时空维度。”王兆鹏说。
地图上线后,火爆程度让王兆鹏大吃一惊,他没想到这样一份文学地图引起了大众这么多关注。“本来项目是年底结题,我们还没着急,没想到一下子火了,上线第一天的点击量超过了100万,两天就到了220万。大家一直在问,为什么没有某某诗人,所以我们现在必须要加班加点,尽快将所有诗人的信息传上去。”王兆鹏说。
用大量数据来展现唐宋诗人的故事,不仅有文学专业的教授在做。今年3月,一篇名为《计算机告诉你,唐朝诗人的关系到底是什么样的?》的文章刷爆朋友圈,很快达到了10万+的阅读量。这篇文章来自一位普通的程序员“前进四先生”之手,发布于他的个人微信公众号“前进日志”中。
在对四万多首唐诗进行了数据整理后,“前进四先生”发现在唐朝,两位关系最好的诗人不是李白和杜甫,也不是白居易和元稹,而是陆龟蒙和皮日休。这两位诗人互相提到对方的次数都在百次以上,中国文学史上的第一本唱和诗集《松陵集》也是他俩的作品。从排名前30的引用关系来看,白居易绝对是唐朝诗人朋友圈中的明星。
大数据与小阅读
用数据统计的方法来做文学研究,王兆鹏早在1992年就开始了。“当时我是系里主管研究生工作的副主任,偶然一次机会在杂志上看到一篇定量分析研究生学位教育的文章,我就想古代文学史的研究能不能也用定量分析的方法来做。后来我写了一篇文章《宋代词人历史地位的分析》,就是用量化数据来描述词人的地位,比如什么叫地位很高、比较高或一般。从那时起,我就开始了这个领域的研究。”王兆鹏介绍说。
在国外,也有展现中国历代人物生平资料的数据库,比如由哈佛大学、北京大学、台湾“中研院”合作开发的CBDB数据库,通过字号、亲属关系、生卒年份等数据,展现人物的社会关系网。
对于大数据手段与文学研究的关系,在华东师范大学教授金雯看来,使用电脑算法来分析文本,不是让电脑复制人脑的功能,或者更大规模地完成人脑擅长的任务。人脑和电脑在阅读文本的时候所用的方法和关注的重点不一样,读出来的东西也可能截然不同。不过人脑和电脑在阅读阐释文字的时候也往往可以互为体用、互补短长,文学大数据分析和学者个人的“小阅读”之间存在着许多交融和合作的可能。正因为如此,借助电脑进行文本分析是近年来不断升温的“数字人文”的一个重要分支。
几年前,王兆鹏利用数据分析进行过另一项研究——唐诗宋词排行榜,曾招来过不少争议。
2011年,王兆鹏出版了《唐诗排行榜》一书,运用统计学方法得出了唐诗前100名排行榜,排在榜首的是崔颢的《黄鹤楼》,其次是王之涣的《凉州词》、杜甫的《登高》、王之涣的《登鹳雀楼》和张继《枫桥夜泊》等,被大众熟知的陈子昂的《登幽州台歌》等诗作则名落孙山。2012年,他又出版了《宋词排行榜》,将《念奴娇·赤壁怀古》列为宋词第一名。
“这是通过对历代选本、评点、论文、网络链接总数等指标综合计算而来的。”王兆鹏说,自己的数据采集分为三个方面,一是作家数据,包括生卒年月、创作起始时间、出生地、去世地、活动地点和在社会上扮演的身份等;二是作品数据,即作品的分类、版本、编年、系地等;三是读者数据,包括普通型读者、专家型读者和作家型读者三项。
两本书出版后,立刻有人质疑:“对古典文学的艺术鉴赏也能列排行榜?”“甚至有人说,是不是因为你是湖北人,所以把唐诗宋词第一名都给了写湖北的?”王兆鹏说。但在他看来,这两个排行榜是将现代科学手段引入到古典文学作品的研究赏析中的尝试,是严肃的学术研究。“而且,我评价的不是一首诗的好坏,而是评价它的影响力和知名度。”
但在中国科学院数学与系统科学研究院研究员安鸿志看来,“影响力”仍然是个模糊的指标。“要给唐诗宋词做排名,目的不同,指标不同,得出的结论就可能会截然不同。如果我们要办的是跑步比赛,首先就要确定跑一万米还是一百米,男子还是女子,个人还是接力,一旦确立指标,比如男性100米个人短跑,那么世界第一就是唯一解。可是对于唐诗宋词,会有唯一解吗?同样是看影响力,如果指标是‘哪首唐诗被现代人记住的最多’,那有可能是《静夜思》;如果把指标设为‘哪些诗句在日常生活中使用频率最高’,答案又可能会是‘粒粒皆辛苦’。话说回来,没有唯一解就不能去研究吗?”安鸿志说,“当然也不是,这项研究是有价值的。但你要承认,指标不唯一,得出的结论也不唯一,这才是科学方法、科学态度、科学结论。”
正确利用大数据技术
在王兆鹏看来,哪首诗词排第一名倒也在其次,这些诗词为何能从古至今一直为人们所熟知,这其中有何传播规律,更能引起他的兴趣。 “比如,除了诗本身之外,故事对作品的传播有着非常重要的助推力。”王兆鹏解释说,“崔颢的《黄鹤楼》在古代非常有名,为什么?一个重要原因是李白很欣赏。李白到黄鹤楼后想写一首诗,后来因为 ‘崔颢题诗在上头’便搁笔未写。这在宋代还成了一句俗语 ‘莫因崔颢不题诗’。所以历代唐诗选本,没有不选《黄鹤楼》的。王之涣的《凉州词》也有 ‘旗亭画壁’的故事流传至今。”
此外,这些唐诗宋词大数据还能告诉我们一些其他的信息。“一般认为,北宋王朝的毁灭代表了中国经济文化重心南移的真正分野。但通过大数据,我们可以看到,中国诗坛重心的南移始于晚唐五代,完成于北宋。唐宋诗歌版图南移的时间和社会经济重心南移的时间并不完全一致,这打破了我们一些固有观点。”王兆鹏说。
通过数据整理,王兆鹏还统计出,唐宋诗人创作的优秀作品大多是在落后地区完成的,在失意受贬谪的地区更可能诞生名篇。“而且优秀作品的作者大多不是本地人。比如黄州、惠州打名片爱说苏轼,可苏轼是四川人;写黄鹤楼那么多名篇,可没有一个人是湖北人写的。”
王兆鹏正在做着更多探索。他计划将更多历史信息融入到现有的电子地图中去,比如某年哪些人中了进士、哪些人做了官、他们之间有何相互影响等。“数字技术正在改变我们观察文学、思考文学的方式。以前由于纸本的局限,我们每次只能看一位人物或一个时期。现在利用信息技术,我们可以把大大小小的人物同时放在一个舞台上,就像把树与树之间隔着的围墙打破后展现出一片森林一样,把历史的一个个横截面完整地呈现出来。”
“大数据技术作为人类认识客观世界的一种工具,给我们带来的进步是难以想象的。从研究者的角度来说,以前我们要到图书馆去查阅很多资料,现在只要坐在屋子里,摆上一台电脑,连接上网络,海量的资料就送到了眼前。”安鸿志说,“大数据资料既可影印,又可编辑,我们可以从中查询关键词,提取信息,进而进行修改、识别、对比。大数据技术是时代的象征,各行各业都要适应这个潮流,在文史哲研究领域当然也是如此。”
安鸿志同时也强调,大数据技术是客观的,但一旦有人使用它达到某种目的、得出某种结论时,就有了主观性,涉及到方法、目的以及表达等问题。“在这个时代,谁往大数据库中‘增砖添瓦’都是一种贡献,但对得出的结论要慎重。你也可以对某位研究者得出的结论提出质疑,但不能将其归罪于大数据技术。这两件事情要分清。”
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 8-3 Pandas 数据重塑 - 数据交叉表 数据交叉表 交叉表显示了每个变量的不同类别组合中观察到 ...
2024-11-28数据分析工具推荐 数据分析工具的选择至关重要。不同工具适用于不同的需求和场景。以下是一些推荐的数据分析工具,根据您的需求 ...
2024-11-27选择适合您需求的数据分析工具 数据分析作为商业决策过程中的关键环节,工具的选择至关重要。不同的工具适用于不同的场景和需求 ...
2024-11-27数据架构文档的编写涉及多个方面,包括内容结构、编写原则和具体要求。遵循规范可以帮助团队更好地理解和管理数据架构,支持项目 ...
2024-11-27挑战与解决方案概述 在数字化时代,数据开放共享对于推动创新和发展至关重要。然而,这一进程面临诸多挑战。保护用户隐私、确保 ...
2024-11-27促进科学研究和创新 数据开放共享为研究人员提供更广泛的资源和合作机会,加速科学知识的发展。通过访问他人的数据集,验证研究 ...
2024-11-27数据组织与存储策略 数据模型是数据仓库和商业智能系统的核心,通过合理的数据组织和存储策略,确保高效、低成本、高质量地利用 ...
2024-11-27持续关注数据系统运行状态 - 数据设计与开发完成后,维护与优化工作成为至关重要的环节。这个过程需要持续且细致的关注,以确保 ...
2024-11-27数据服务未来的趋势 智能化和自动化: 随着人工智能和机器学习技术的飞速发展,数据服务领域正逐渐朝着更智能化和自动化的方向 ...
2024-11-27未来最有前景的行业主要集中在以下几个领域: 人工智能与机器学习:人工智能被认为是未来最具潜力的行业之一,其应用范围广泛 ...
2024-11-27根据多条证据,目前多个行业展现出良好的发展前景。以下是一些被认为具有最好发展前景的行业: 人工智能与机器学习:人工智能 ...
2024-11-27学习数据分析后,可以在多种类型的单位找到工作机会。这些单位包括但不限于: 政府机关:数据分析师在政府机构中扮演重要角色 ...
2024-11-27必备的职业技能 统计学基础 - 理解概率、假设检验、回归分析等统计概念。 - 运用统计方法对数据进行分析和解读。 编程能力 - 掌 ...
2024-11-27基础课程 - 统计学基础: 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识。这有助于分析师更好地理解数据背后 ...
2024-11-27数据分析领域涉及众多工具软件,涵盖了从数据处理、分析到可视化的各个方面。在选择适合自己需求的工具时,需要考虑数据规模、分 ...
2024-11-27在数据分析领域,选择合适的工具至关重要。不同的软件适用于不同的需求和技能水平。以下是几款值得考虑的数据分析软件: - Table ...
2024-11-27数据分析中常用的Excel与Python函数公式涵盖了广泛的应用场景。掌握这些基础和高级技巧对于成为一名优秀的数据分析师至关重要。 ...
2024-11-27Python是一种高级编程语言,由荷兰程序员Guido van Rossum于1989年圣诞节期间开始开发,并于1991年首次发布。Python的设计哲学强 ...
2024-11-27课程内容 数学基础: 高等数学、线性代数、概率论与数理统计、微积分等为算法设计和数据分析打下基础。 编程与算法: 掌握 ...
2024-11-27爬虫工程师是互联网时代中至关重要的职业之一,他们的工作内容主要涉及编写和维护网络爬虫程序,进行数据采集与清洗,设计系统架 ...
2024-11-27