大数据时代史学研究的趋势与反思
“大数据”被用以形容我们的“时代”来得十分突然,各界竞相以大数据为时髦始于2012年。以“大数据”为篇名搜索中国知网学术期刊库,2011年发表文章仅43篇,而2012年一下子扩张到358篇,此后几年增长迅猛,2013年发表1964篇,2014年发表4464篇,2015年发表7062篇。
如此速度超乎想象,用蜂拥而至形容并不夸张,“大数据”成为流行词汇。2012年被称为大数据正式启蒙之年,而2013年被誉为“大数据元年”。
大数据时代下不少学科似乎在打造全新的概念,如“大数据经济学”“大数据哲学”“大数据政治学”,还有如“新计算社会学”“计算广告学”“计算历史学”“数据新闻”等,直接受大数据时代影响而被创造。
其他以大数据为视角进行研究和考察的成果更是不胜枚举。学界似乎有被彻底改造的趋势和可能,大数据一波接一波充斥着每一个可能的角落,拓展和深化人们各方面已有的认知。于此,史学界自然也无法避免“大数据”。
一、大数据介入史学研究的可能性
大数据的确在不断地改变着人类的社会生活,各领域皆不可避免地受到大数据的影响。
人文社会科学研究与大数据的结合也渐成潮流与时尚,于此,笔者所从事的史学研究领域,大数据的影响也如影相随。
大数据介入史学研究虽起步较晚,但也渐成云涌之势,于史学研究的影响以诸如“数位化史学”“新样态史料”“网络史学”“数字史学”等各种面目出现。
目前,相较于其他学科与大数据结合的研究成果,大数据影响下史学的实证与理论研究皆不能说充分,并且学界对大数据将以何种形态及在何种程度上影响史学研究尚有不同意见。
大数据革命说
该观点觉得大数据介入将引来史学研究的革命性变革,史料结构、研究方法、研究效率等方面将有根本性变化。学界多数学者均积极肯定大数据介入史学研究。大数据给史学研究带来的变革性成为史学界的重要观点。
周祥森将电子技术的发明与文字、造纸术特别是活字印刷术并称为人类传播媒介技术的“三次重大的革命”,强调电子技术时代历史学的“空间转向”,进而影响到当代史学形态。
与“空间转向”不同,《甘肃社会科学》发表“信息转向:新世纪的历史学在召唤”专栏文章,指出未来史学发展的新趋向,并认为“信息转向不仅预示,而且已经在揭示一场新的更为深刻的史学变革的降临”。
于此,王旭东提出“信息史学”,并预言信息史学“极有可能是为期不远的史学变革的下一个方向汇聚点之一”。信息化的史学研究不仅拯救了历史学计量化,甚至促进了史学的进一步变革和发展。
周兵则觉得数字史学“将成为未来历史学发展的重要方向”。大数据时代的历史学研究将出现诸多变革,并将引领未来史学发展新方向。
大数据常规说
该观点肯定大数据对史学研究产生的巨大影响,但未至“革命”程度,若能与传统史学研究结合将相得益彰,推进史学健康发展。
《史学月刊》开设“计算机技术与史学研究形态笔谈”专栏,乔治忠指出“历史研究电子资源运用的兴利除弊”,特别强调“学术性电子资源”“不能改变学术研究的本质,它仍然仅仅提供研究的资料基础,史学成就的取得还是依赖史学界诸多学者的思考、探索和相互讨论”。
论者客观评价电子资源,肯定其优势也指出要弥补电子资源的一些缺陷。同一专栏中,王文涛从技术层面论及信息时代如何利用计算机和古籍全文数据库进行文献阅读和史料检索。
若将论者所言计算机技术与数据库理解为“大数据时代”的相关方面,显然是指“常规统计工具”。
梁晨、董浩觉得随着“大数据”时代的到来,依靠大规模系统历史资料构建量化数据库并进行定量分析成为一种新的、行之有效的研究方法。但历史数据库构建和定量分析有其“适用范围”。
此类将大数据视为历史研究常规性方法的讨论,肯定大数据给史学研究带来的便利和创新,但并未一味地凯歌前进,同时也认为要适当而正确地运用大数据,避免“误入歧途”。
大数据警惕说
该观点希望在史学研究中不要出现“唯大数据”的倾向,应时刻警惕大数据的缺陷与不足。
王子今觉得“学术条件的技术性进步”与“史学成就的伟大”间并无直接关系,若要断言计算机技术“会在很大程度上改变史学的学术走向或说形成革命性的积极影响,除了开发想象力之外,还需要实践的证明”,甚或应注意到“采用的这种工作方式仍然有明显的不足”。
真正的史学书写依然主要在于学者“史识”。陈鹏反思了史料型数据库,觉得数据库“由于其设计上的缺陷、学者自身学识和治学态度的影响,在使用过程中,不可避免地会暴露各种问题,值得我们警惕和深思”。
从研究者研究实践的角度而言,史料型数据库存在的某些弊端值得注意。陈爽似乎对数字化时代史学发展的情况“略感失望”。
他认为,在利用现代化电脑网络技术寻找到史料后,依旧需要对“史料进行科学鉴别筛选和分析排比”,这更是考验学者史学修为与学术功力。数字化时代史料的处理与运用为深奥学问,值得细细考量和思考。
任何研究者皆未绝对否定大数据介入史学研究。大数据对史学研究的影响是不可回避的趋势,学界已有相当认识,李振宏即道出互联网、大数据使“我们正在经历的这场史学变革,无疑带有不可逆转的趋势”。
“大数据”时代到来最早由全球知名咨询公司创始人詹姆斯·麦肯锡提出。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,近年来互联网和信息行业的发展使“大数据”时代更加引起人们关注。
所谓“革命说”“常规说”“警惕说”等只是大数据介入史学研究的程度不同。当前应考虑者是探寻如何更好地使大数据为史学研究所用,以促进史学发展。
二、大数据时代史学研究的新趋势
笔者通过阅读近年来大数据史学研究的相关成果,试图较宏观地归纳史学研究本身受大数据影响出现的新趋势和新路径。
精准型研究。不少研究者意识到,大数据时代的到来让以往多用以形容自然科学的“求是型学术”一词可适用于历史学。
大数据给史学研究的直接观感即大量史料型数据库的建设,各种数据库若雨后春笋,让研究者目不暇接。其中不少数据库更是提供全文检索,使史学研究中某些选题的精准研究变得可能。
譬如李中清、梁晨等人关于学籍卡片资料的数据库整理与研究;金观涛等人的“中国近现代思想史专业数据库”建设及关键词研究。此类成果尚有不少,将精准型史学研究推向新的高峰。当然,该类研究耗时耗力,欲取得成绩非一日之功。
据称“中国近现代思想史专业数据库”有一亿两千万字,且还在不断扩容,可进行全文检索;李中清、梁晨等人的数据库有近10万民国大学生的学籍信息。正是此类数据库的整理与建设,使史学研究有可能运用大量数据,并通过定量分析数据以得出相对精准、客观的结论。
如关键词研究,正因大型史料型数据库的出现,才能够分析某词汇某时间段内出现的频率,进一步可分析词汇存在的语境,从而观察观念乃至社会的形成,甚至能得出迥异于学界已有的认识与观点,于此增加了关键词研究的准确性和科学性。
大数据使历史学从“解释型学术”向“求是型学术”转变,不仅是数据库的建设,大数据时代下计算机、互联网等各方面的发展,而且不断提高史学研究的精准性,使史学朝“科学”的方向发展。
跨学科研究。史学的常新似乎源自其开放性,大数据时代到来后,起先并未引起史学界关注,相比其他学科而言对待大数据应属“迟钝”。
但大数据与史学结合后,出现了一个不知令史学研究者兴奋抑或悲痛的趋势,即“非历史学者借助大规模历史量化数据库进行自然和社会科学研究并取得重要成果的现象却有不断增长之势”。
换言之,大数据时代跨学科的融合在逐渐增强,以往不太被其他学科关注的历史资料开始为“他者”注意。他者若此,于史学研究者也应主动积极地探索史学研究和社会科学研究的融合与共同发展,此也是对历史学者的要求。
大数据带来的信息和信号,大数据时代下史学的变化,光靠传统史学知识或不能予以正确或客观地处理和应对,许多工作并非传统史学理论和方法所能胜任,跨学科的协调研究需要进一步加强。甚至于不少研究成果将难以予以严格的学科归类。
事实亦如此,面对真正大数据的史学研究也多属于跨学科成果,亦即若开展与大数据结合的史学研究,则必将在跨学科视野下进行。
整体史研究。李金铮在史学研究“碎片化”的背景下对整体史做出三个层次的理解:“一是不断扩大历史研究的全面史、普遍史;二是以整体史指导具体或碎片研究;三是宏观史学是整体史的最高追求。”论者主要研究中国近现代经济史,于整体史的思考多半出自其研究实践,而其研究与“数据”不无关系,或许正是大数据提供了他认为的整体史的可能。
大数据带来史料的极大扩充,但并非一定会予以研究便利,或许是挑战,在于研究者处理史料的理论与方法得当与否。若借助社会科学化的研究方法,例如建设大规模史料型数据库,则很有可能逾越“大历史观”,进行整体史研究。此亦史学研究发展的新方向。
大数据使历史研究的全面史、普遍史变得可能,也使宏观史学成为未来的重要路径,虽然历史研究一直不缺少宏观与整体性考察。大数据提供以往单凭个人之力无法搜集和阅读的海量史料,并能运用计算机技术对之进行分析和初步解读。
大数据或将拯救史学的碎片化走向,假以时日能够通过大数据得出科学的整体史,真正实现地方区域研究与全国性研究的结合,短时段研究与长时段考察的结合,个案研究与综合性研究的结合。
大数据时代的史学研究精准性提高,跨学科更彻底,整体史变得可能。这些变化最终能给历史学带来什么,尚有待时间的检验,但不得不承认大数据时代的史学研究确实在不断追求创新。
当然,大数据予史学研究积极影响的同时,研究者亦须时刻抱以警惕心理,或者说史学发展需遵循某些固有规律,不能因大数据而颠覆或迷失史学的本质特征。
三、大数据时代史学研究的反思
大数据时代似乎给史学研究带来了前所未有的兴奋,中国史学界引入大数据概念虽较晚,但就宽泛层面的“大数据”而言,历史研究与之有着深远联系。
早于20世纪20年代,梁启超即在“历史统计学”的演讲中称“拿数目字来整理史料,推论史绩”。梁所言或即量化史学研究。理论层面的量化史学研究往往充斥着想象和美好,实际运作过程则难免遇到可用于量化分析的历史数据缺失、量化史学研究适用范围的局限、量化史学研究范式接近自然科学而难被同行理解等重重困境。大数据运用于史学研究难免遭遇类似困境。
大数据时代史学中的史料处理。历史研究正因为能够利用诸种数据,尤其在大数据时代的影响下,使获得某些精确、客观的史学结论变得可能。但前提是数据本身应具备精确、客观的本质,否则,利用其进行的史学研究则无所谓精准。
当前,不容乐观者是史学研究的大数据运用尚不成熟。以报刊型数据库而言,目前流行者种类繁多,笔者经常使用大成老旧刊数据库、晚清与民国期刊全文数据库、瀚堂近代报刊数据库等几种。
有时为进行某项研究,不得不搜索多种数据库,显然是因某种报刊型数据库在史料搜集与数字化处理方面不全。更为不方便的是,不同数据库中同一条史料的标题不一定相同,无形中给研究者造成困难,耗费时间竟检索和阅读了重复史料。
许多大型报刊在数据库中也没有完整收录,就笔者所知的《民国日报》有多个版本,某种数据库中显然不全。其他关于《申报》《东方杂志》等的专门“全文”检索数据库,据说耗费了大量人力物力,但也存在全文不全的弊端,所得统计数据自然不科学,导致研究的缺陷。
同时,数据库在识别原报刊字迹上也存在诸多纰漏或错误,也是导致内容检索困境的原因。迷信数据库者难免会导致史学研究的失真和失实,从而有损大数据时代历史研究精确性之本义。
史料运用上往往对某些典型的重要常规性史料视而不见,而利用了很多貌似难以寻觅的所谓稀见史料,导致研究本身步入歧途,很难说是在探究历史真实。大数据的专门化和私有化也导致大数据的“大”未必真的“大”,表明大数据的共享难以真正实现。
大数据时代历史学的学科边际。大数据时代的史学研究具有跨学科性质,非历史学者也开始关注历史资料的运用并开展研究。
同样,历史研究的方法和视野也得以极大扩张。跨学科自然能予历史研究清新之感,并且在促进史学繁荣上贡献着自身力量。但大数据时代的历史学也应或更应有其学科边际,以示一门学科之所以存在,以免在跨学科洪流中迷失自我。
不少研究者对史学本身不无担忧,一者是史学逐渐成为弱势学科,认为是“冷门”。当然,也觉得被应用型学科攻城略地,日益感觉难以据守。在大数据时代,这些担忧来得更加紧迫和明显,不少学科皆能主动迎接大数据时代的到来,历史学却迟迟不动。该情形或许是经济和科技大潮下历史学焦虑与不自信的体现,非因大数据而出现。
积极主动胜过被动挨打,大数据时代需要历史学面对大数据进行主动回应。毋庸置疑,大数据时代历史学的学科边际肯定有所变化,不能再固守传统。
研究者应该相信历史学有自己独特的问题意识与研究对象,也有自身固有的学术追求与现实关怀,而其他学科“可远观而不可亵玩”。史学研究者应该秉持这一份自信,不管什么时代,历史学皆有其存在的必要,也有其特别处。
大数据时代的历史学或许将失去一些原有领地,但也将开辟出一些新领地,不管如何理应将大数据为史学研究所用。大数据时代史学研究的“跨学科”趋势并非要将史学变得“无学科”,而是能更多地积极汲取其他人文社会科学的研究方法和理论,实现史学自身的不断发展。
大数据时代史学研究的史观史识。整体史作为史学研究者追求的目标,在大数据时代似乎变得可能,但应该注意整体史并非“数据”的史学,而是一种史观与史识。换言之,整体史并非单指全球史或全国史,或简单的长时段、综合性的历史研究,大数据时代整体史是作为一种史观史识而存在。
大数据时代的整体史要警惕成为数据的奴隶,自以为掌握了大量数据和高超技术,能够对全国乃至全球的某些历史现象进行研究和分析,此只会陷入数据化的陷阱而不自知。
历史研究并非简单的数据整理的学科,计量史学即试图运用计算机科技和统计方法对历史数据进行量化分析,但不少研究者指出,计量史学要获得认同“任重道远”,计量分析方法作为研究工具和手段,只能适应于某些研究对象。其实,该观点道出了问题的根本,即传统的计量史学难被认同的原因是缺乏史观与史识般的人文特性。
同样,大数据时代的史学研究更应注意到史观与史识问题,王子今对此有相当明确的表述:“史学的突出成就”也“需要灵性,需要思辨能力,需要创新追求,在一定意义上,也需要艺术素养与美学理念。
从这几个方面来说,计算机技术都是无法完全替代的”。灵性、思辨能力、创新追求、艺术素养与美学理念即“史识”。大数据时代的整体史不能变成数据史、数字史,而应该是整体史观下的大数据史学研究。
大数据还导致研究者先出结论,然后寻找论据证明;新生一代研究者不再强调史学基本功,使史料解读能力等较前辈学者偏低等问题。如许现象与大数据时代的本义相去甚远,此不一一赘述。
此需强调大数据时代非“垄断”的时代,而是创新的时代。换言之,研究者对大数据并非一定要刻意为之,而是要学会如何更好地利用大数据为史学研究服务,以实现史学研究的创新与发展为目的,或许将大数据理解为一种“研究方法”更合适。
四、走向大数据时代的史学研究
大数据全面冲击着人文社会科学研究,史学自不能置身事外。如此,研究者必须要积极探求大数据如何为史学研究所用,若将大数据视为一种研究方法,合理利用将有益于未来的史学发展。大数据与史学研究的结合将成为必然趋势,只是不同学者理解的“大数据”在程度或具体意涵上有所不同。
史学研究者面临的一个相当重要的问题即如何使大数据为我所用,用通俗的话说,即要将大数据变现,不能光是理论上的高谈阔论。大数据于史学研究肯定存有价值,只是不同性质的数据,不同质量的数据,将有不同的价值,但数据具有的价值无法改变,而是客观存在。
史学研究过程中应注意数据产生的环境,要明白数据背后的生成条件,数据适应的场景。只有在对此获得明确认知的基础上才可能把握数据的价值。
如某史料型数据库,至少需明白该数据库收录了哪些类型的史料,更具体到收录了哪些史料。还要了解数据库的运行逻辑,如何检索,检索到的内容如何排序,能否进行全文检索,检索是否科学。甚至还应该了解数据库建设背后的人与事,等等诸如此类皆应在考虑范围。
有些研究者相当熟练地利用大数据进行史料查询,对各种数据库、互联网资源了若指掌,但如何才能进一步将这些数据运用于实际研究工作,撰写出高质量的研究成果,则需另一番功夫。换言之,研究者如何将数据库变现,变成研究的便利工具是更重要的问题。
大数据时代刚刚到来时,即有人发出警惕之声,于史学研究也不例外,研究者需要客观对待。大数据只是一种技术与工具,不要将之过分神化,最佳的技术皆为应用而生。若不能更好地解决实际问题,则只会是“孤芳自赏”。
于史学研究而言,大数据也是为了提供便捷,若不能实现,则只会被逐渐淘汰。博客、微博时代逐渐远去,如今微信时代到底还能持续多久?大数据会不会如博客、微博一般,风起云涌后却是风平浪静。
当然,就目前而言,大数据备受欢迎,史学研究各领域渐有拥抱之势,望大数据改变史学研究格局者也大有人在。笔者也受益匪浅,诸多论文的撰写直接受益于大数据提供的数据库,不再是卡片式的收集资料。
计算机技术也提供了写作便利,并改变了书写的思维方式。计算机相关的技术处理更多的只能算经验之谈,各人有各人之爱好。曾与单位同事交流如何用计算机撰写论文,笔者的笨办法即将所有查找到的史料先期逐字用键盘敲人word文档。而同事更多的是输入目录与内容大概以备写作,可想需要更强记忆力。前辈学者有使用电脑不便者,依旧用夹纸条、摘录卡片的办法。
史料查找与使用方法的不同直接影响到书写方式,从而使文章最后呈现的风貌不同。前辈学者多擅于宏论,新一代学者则多擅于史料。
大数据不仅给史学研究提供了新方法,也拓展了史学研究的领域。传统的史学研究同样需要收集数据,但因技术水平和技术条件的限制,往往只能使用采样的方法,力求利用最少数据获得最多的信息。
如此,数据失真的可能性就较大,采样方法虽被诸多学者证明有其科学性,但相较于大数据提供的海量信息与科学分析而言,显然不具优势。许多以往无法研究的课题和领域,大数据时代皆将变得可能。长时段、全国乃至全球、宏观的话题处理得当皆能纳入研究者视野,更不用说诸多跨学科课题也将应运而生。
综上所述,大数据介入史学研究不仅可行也很必要,史学研究将有各方面变化,当然也需要反思某些问题,若合理使用将带来史学的新繁荣。
数据分析咨询请扫描二维码
数据分析工具推荐 数据分析工具的选择至关重要。不同工具适用于不同的需求和场景。以下是一些推荐的数据分析工具,根据您的需求 ...
2024-11-27选择适合您需求的数据分析工具 数据分析作为商业决策过程中的关键环节,工具的选择至关重要。不同的工具适用于不同的场景和需求 ...
2024-11-27数据架构文档的编写涉及多个方面,包括内容结构、编写原则和具体要求。遵循规范可以帮助团队更好地理解和管理数据架构,支持项目 ...
2024-11-27挑战与解决方案概述 在数字化时代,数据开放共享对于推动创新和发展至关重要。然而,这一进程面临诸多挑战。保护用户隐私、确保 ...
2024-11-27促进科学研究和创新 数据开放共享为研究人员提供更广泛的资源和合作机会,加速科学知识的发展。通过访问他人的数据集,验证研究 ...
2024-11-27数据组织与存储策略 数据模型是数据仓库和商业智能系统的核心,通过合理的数据组织和存储策略,确保高效、低成本、高质量地利用 ...
2024-11-27持续关注数据系统运行状态 - 数据设计与开发完成后,维护与优化工作成为至关重要的环节。这个过程需要持续且细致的关注,以确保 ...
2024-11-27数据服务未来的趋势 智能化和自动化: 随着人工智能和机器学习技术的飞速发展,数据服务领域正逐渐朝着更智能化和自动化的方向 ...
2024-11-27未来最有前景的行业主要集中在以下几个领域: 人工智能与机器学习:人工智能被认为是未来最具潜力的行业之一,其应用范围广泛 ...
2024-11-27根据多条证据,目前多个行业展现出良好的发展前景。以下是一些被认为具有最好发展前景的行业: 人工智能与机器学习:人工智能 ...
2024-11-27学习数据分析后,可以在多种类型的单位找到工作机会。这些单位包括但不限于: 政府机关:数据分析师在政府机构中扮演重要角色 ...
2024-11-27必备的职业技能 统计学基础 - 理解概率、假设检验、回归分析等统计概念。 - 运用统计方法对数据进行分析和解读。 编程能力 - 掌 ...
2024-11-27基础课程 - 统计学基础: 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识。这有助于分析师更好地理解数据背后 ...
2024-11-27数据分析领域涉及众多工具软件,涵盖了从数据处理、分析到可视化的各个方面。在选择适合自己需求的工具时,需要考虑数据规模、分 ...
2024-11-27在数据分析领域,选择合适的工具至关重要。不同的软件适用于不同的需求和技能水平。以下是几款值得考虑的数据分析软件: - Table ...
2024-11-27数据分析中常用的Excel与Python函数公式涵盖了广泛的应用场景。掌握这些基础和高级技巧对于成为一名优秀的数据分析师至关重要。 ...
2024-11-27Python是一种高级编程语言,由荷兰程序员Guido van Rossum于1989年圣诞节期间开始开发,并于1991年首次发布。Python的设计哲学强 ...
2024-11-27课程内容 数学基础: 高等数学、线性代数、概率论与数理统计、微积分等为算法设计和数据分析打下基础。 编程与算法: 掌握 ...
2024-11-27爬虫工程师是互联网时代中至关重要的职业之一,他们的工作内容主要涉及编写和维护网络爬虫程序,进行数据采集与清洗,设计系统架 ...
2024-11-27技能需求 数据管理与建模 - 掌握SQL、HiveQL、Spark SQL等数据库语言,进行复杂数据查询和分析。 - 使用数据建模工具如ER/Studio ...
2024-11-27