首页 > 科学研究 > 学术成果 > 理论与批评
中国文学数字人文发展报告
 一般而言,文学研究由于和语言研究的亲缘关系,通常会在数字人文领域扮演较先锋的角色,中国的文学研究也不例外。在中国,所谓文学数字人文研究虽然还处在摸索阶段,也远未获得独立形态,却已经历了较长久的量化准备阶段,近年来形成了一些颇有前景的新方向,吸引着越来越多跨学科背景的青年学者投身其中,大量专业性成果得以发表,各类专门的学术会议、工作坊此起彼伏,接连不断[1]。成果方面,仅就国内而言,自2016年起,《山东社会科学》(“观其大较”专栏),《数字人文》和《数字人文研究》两本专业刊物,以及台湾地区的《数位典藏与数位人文》期刊上相继发表了226篇研究性论文,其中约有64篇以文学研究中的主题为对象2022年,上述刊物中的部分文章集结为《数字人文与语言文学研究》,在大陆出版[2]。自2019年起,届中国数字人文年会CDH成功举办,其中的“文学与数字人文分论坛”以青年学生、学者为主角,发表了一批当下最前沿的探索,形成了几个较活跃的子领域。台湾地区一年一度的“数位典藏与数位人文国际研讨会”迄今也举办14届,历届会议上的文学数字人文研究也占到了一定比例,编者精选一部分文章汇集为“数位人文与数位典藏研究丛书”陆续出版[3]

如果中文数字人文为考察范围[4],总体上看,古典文学领域对量化方法的接受度较高,涌现出了高产作者和有一定持久度的研究议题,形成了一些可资归纳的分支结构,同时又呈现出历史的阶段性特点。本报告尝试将开端回溯至1980年代,梳理近四十年来,从早期的文献数字化、数据库检索,文献计量和文体测量,到现如今的文学计算批评的发展脉络,时段和技术形态、文学议题相结合的线索,对比较成功的个案做介绍,总结其特点,分述其进展得失,探问其去路。最后,本报告还将对当下该领域的理论批评建构及整体生态做一描述,以期提出有用的问题。


早期的文献检索与文献计量研究

文学领域的量化研究要想有所发展,离不开文献数字化和文献计量的准备工作。中国大陆的文献数字化的历史,可追溯至1980-1990年代古籍数字化的先驱工作。钱锺书先生自1984年开始在中国社会科学院文学研究所倡导把计算机技术引入中国古典文献的搜集、整理和疏证。栾贵明带领团队白手起家,克服了文字编码和字符集受限等重重困难,于1987年前后建设了“《论语》逐字索引”“诸子集成数据库”“《全唐诗》速检系统”等古籍数字化系统,具有多种索引形式,将卡片式索引编制方式的工作效率提升了十倍,是早期文献和索引数字化工作的一个创举[5]。与此同时,深圳大学和哈尔滨师范大学也开始了关于《红楼梦》和《史记》检索系统的创制工作。1997刘岩斌、俞世汶、孙钦善介绍北京大学正在开发的《全宋诗研究的计算机支持系统,包括如何实现检索、统计和辅助格律、风格研究等[6]1990年代末北京大学中文系语言学实验室的李铎主持开发了“全唐诗电子检索系统”,除字频,用韵等基本信息检索外,还可通过文本比对算法,在一两分钟内标记出近5000“重出诗”,为大规模重出诗现象研究提供工具[7]。同类平台还有南京师范大学的“《全宋词》检索系统”。这些都是大陆人文学界较早出现的、满足了基本检索和统计功能的文献计量专题平台。

尽管一些有识之士看到计算机处理文献的巨大优势和潜力,主张与IT人士合作,利用文本聚类、人工标注和机器学习等技术,对数字化成果进行深入挖掘和再加工,将情感计算用于古典文学的作品风格、体裁研究[8]但是真正能够很好地利用数据库,深入各学科内部,提出并回答学科问题的研究却少之又少。尚永亮对唐代诗人知名度、地域和代群交往的定量分析[9],王兆鹏、刘遵明关于宋词作品量、词作者地位以及宋词学的定量研究,都是起步很早的文学计量研究[10]。他们自1990年代中期起发表大量文章和著述,如唐知名诗人之层级分布与代群发展的定量分析》(《文学遗产》,2003年第6期),《历史的选择──宋代词人历史地位的定量分析》(《文学遗产》1995年),《本世纪东坡词研究的定量分析──词学研究定量分析之一》(《文学遗产》1999年)等。王兆鹏、邵大为等于2011年、2012年分别出版了《唐诗排行榜》、《宋词排行榜》。这些早期成果大多来源于对自建数据集的描述性统计,大胆构造测量指标,涉及文学影响和经典化过程(如邵大为为评估唐诗经典化程度设计出影响力公式),以数字手段检验一些前数字时代习焉不察的定见,或为成说提供了客观准确的数据支持,或意欲抽象出更高层面的规律(如尚永亮、张娟对唐代诗人的知名度和作品量之关系的探讨),可以说为古代文学研究打开了前所未有的宏观视野,实为难能可贵的尝试。

同一时期,台湾地区的量化研究和计算机检索、语料库语言学相结合,深入到了词汇、语音、语义等文本内部层面。1987年,台湾师大中文系开始尝试开发《红楼梦》《水浒传》的全文检索系统。1992年始,台湾元智大学罗凤珠利用多媒体技术建构了单机版《红楼梦》数据库,后开发诗词格律自动检测系统,可进行诗题、作者、关键词和诗句检索。2002年起,又以苏轼为范例,以诗词词汇为单位建立语音及语义词典,继而扩展为唐宋诗、词的语义概念分类数据库,使之具有语义辨识检索的功能,可以解决作诗“词穷”的问题[11]。此外,林淑慧也曾利用“台湾历史数位图书馆”中关于年代、出处,词频等等的分类功能,研究了台湾清治前期采风诗文作者的书写策略[12]

文体测量学在作者归属判定中的应用

在数据库、平台建设和文献计量研究之外,受统计文体测量学(Statistical Stylometry)这一有一定历史的专门之学影响,文史领域的研究者,还倾向于采取易于操作的统计方法,对其所关心的问题做专门考察。其中最显豁的应用,是对有较大争议作品的作者归属判定authorship attribution)。这一做法延续至今,经历了从简单统计,到训练分类模型做推断的发展过程,为文学史家和文献学家从文本内部找证据,以协助著作者考证,奠定了基本的量化途径。可以说,无论是对古代有争议作品,还是对现代作家作品的归属判断,都已发表大量研究,但也应看到,由于取样、特征选择和统计方法的差异,得出了前后相互抵牾的结论,引发了相当多的问题。仅以《红楼梦》前八十回抄本和后四十回刻本作者统一性的判断问题为例,虽然从1952年高本汉研究至今,发表的量化研究已有四十余种,且大都与红学界的主流认识一致,支持作者并不唯一的推论,但人们仍然认为未能完满的解决这一疑案,可以说这个案例较典型地透露出了计算方法施用于文学解释的复杂性,及其所面临的天然难度[13]

在早期,人们大多会去比较前后两部分在功能词频率,构词法句长特殊词汇等等“作者指纹”是否存有显著差异如何检验前后两部分是否为同一作者所写?可以从前后两个样本中选择同种类的高频特征,若发现其在两者间的频率或分布有明显差异,就可推断它们并非来自同一个“总体”,亦即并非为同一作者所撰。例如,赵冈和陈钟毅就于1970年采用t检验法,检验了五个常见语助词在脂本前八十回和程甲本后四十回100页文本中平均频次的差异,以之反驳了高本汉失之粗疏的测量方法和结论。陈炳藻在1980年首届《红楼梦》国际研讨会发表文章,用计算机算出前、中、后三个四十回各两万字中14个虚词出现频率之间的相关情况,认定全书为一个作者。陈大康则认为这种抽样方法和实验设计值得商榷,遂花费一年半的时间,分别在字、词、句的水平上,检验了88个特征在前八十回(庚辰本为底本)和后四十回(程甲本)出现频率的分布形态是否相似,为最早使用多元文体特征的文体测量研究。最终不仅得出后四十回作者另有其人,还给出了可能含有部分残稿的章回区间[14]

1980年代末期,随着文本挖掘,机器学习等多元统计技术的跟进,人们开始采用文本分类和聚类技术来对接此类问题。李贤平(1987)是最早启用词汇的向量化表示和多维尺度分析对《红楼梦》文体风格做分类,从而对著作权进行划分的学者[15]。然而学界对此做法多存疑义此研究发表后,复旦学报还专门组织了讨论会。陈大康指出,该研究仅仅依据降维投射图的视觉效果,便认为不同的风格章回被算法分离了出来,还就此一一还原了曹雪芹在佚名作者所著《石头记》底本上的成书过程,这在做法上和解释上是不无问题的。到底多大程度的离散,才能判定任意两回并非同一作者?“这判定本身的可靠性又究竟有多大呢”?可以说,李贤平研究(1987)是最早暴露出数字人文(或者说人文计算)的重点,并不在于计算技术有多高超,而更在于方法要如何施用、怎么解释才有效上。在陈大康看来,造成各章回聚散形态的,其因素之一很有可能是近代白话不同于现代汉语而带来的文白夹杂所致[16]。不论此说是否成立,都等于是从反复阅读的经验出发,结合统计分析结果,对主成分轴究竟为何做了某种探究,从而深入到了图表背后的算法层面,可以说体现了人文学者破解算法黑箱的最初努力。

施健军教授在2010年训练了支持向量机分类器,高度拟合了预想中的分类结果,验证了前八十回与后四十回作者完全不同这一“预设”[17]。与此相类,此后又有多项研究建立在对各回作者做了非此即彼(只有两类归属)的预判这一思路上在缺乏公开的测评数据集的前提下,这些研究对于分类做法的适用性前提和特征选择的标准仍然未做出必要的讨论和控制。这一问题在四年后由XianFeng HuWang Yang2014)等人的研究设计中,得到了某种程度的改进。他们不仅以交叉验证的方式极大程度地解决了特征随机波动的问题,还设置了控制对照组,因而极大的增强了说服力[18]。近年来,计算语言学方向的研究大量发表,多采取了如n-gram词长词汇丰富句法语义特征等更多元的特征指标[19]。杜协昌(2014)的每一步实验都建立在较严密的假设验证和推理之上,计算和挖掘的过程都清晰可见,还可用于直接指导细读互释[20]叶雷的研究(2016)将特征的自动挖掘和有监督的分类做得最彻底,他沿袭了李贤平思路,又弥补了其不足[21]。而朱东旭、严广乐(2020)则将词嵌入和LSTM神经网络结合,规范而巧妙地运用于此案的建模和推理,已经初具计算批评设计的雏形,只是由于完全倚仗无监督的深度学习,固然极大的促成了推理,却很难通过明确的特征项回溯到细读互释中去,对于进一步的文学批评和文学史研究来说,也就意义不大了[22]

应当指出的是:由于《红楼梦》成书问题极度复杂,其作者判定仍然很难遵循国际惯例。与目前所有做法不同,恰当的做法或许是将曹雪芹自己的文体惯习(词频或其他特征数据)作为“母本”,来与待鉴定文本进行比对,然而这种做法在目前只有绝少作品传世(此唯一一部的著作权还存争议)的曹雪芹身上,却很难施行。此外,明清文本的生成演变形态纷繁错综,抛开版本谈作者问题并无太大意义。文体测量在异文推定,版本溯源、辩伪,乃至作者探佚等方面还大有可为,有待于融入更加深入、细致、全面的文献工作中来;需要借助多种计量方法将文本之外的版本、流通等“外部”情况也考虑进来。如李友仁(Paul Vierthaler)在探索兰陵笑笑生的真实身份时,就不仅只依靠文体测量,还对万历间《金瓶梅词话》问世之前的手稿在精英社会网络中的流通状况专门建模,为归属判定提供了另一条证据链。

可以看到,运用文体测量学研究作者归属问题的一大关键,在于如何科学推理和论证,这涉及到理据分析的系统性,解释力和证明力的问题[23]。近来在这一路径走得较远的是两位语言学者对清末小说《醒世姻缘传》作者悬案的研究[24]。该研究并没有运用多么高超的技术,而仅仅采用特征抽样的分布检验从对比分布、一般分布和散点分布三种统计路径上比对,经过显著性检验后,用扩充的矩阵关系来评估体裁、年代等应控制的变量和作者身份影响力之间的差幅,从而剥离非作者身份因素的影响。最终经过重重验证、互证和参证,小心排除了作者为蒲松龄耀亢的主流推测。从方法的层面讲,这一路径充分发掘了数据间的系统逻辑关系,提高了推断的可信度,可以解决了上述《红楼梦》作者判定研究史上的大部分疑问,为文学史上的同类问题提供了一种更可靠的文体计量学研究范式。

文学文本挖掘与文学形式研究

2010年后,随着数字人文概念在中国日益传播开来,人们开始有意无意地发表利用文本挖掘(text mining研究文学文本、文献的文章。文本挖掘是“远读”海量文献时采用的一系列技术集合的统称,它发挥了自然语言处理和数据挖掘技术的基本理念,从文本预处理中的分词、文本标记等步骤,到其后表示模型的选择特征抽取,词频计算,各种文本聚类和分类,模式识别,情感分析,作者归属判断,主题建模等等,都可算作文本挖掘的内容。早期的文本挖掘主要由计算机辅助的语言研究主导,较少有文学学者参与,如基于语义分析的宋词情感研究、基于语料库的唐诗风格分类等,更多由技术的可能性来驱动,并没有将实验整合到具体问题的论证框架中,而更容易流于工具性的应用探索。

近十年来,计算语言学中的词频统计和信息检索等手段与文本挖掘的一些基本思想相结合,被更多的用于古诗的词汇意象、风格、主题和影响研究,而尤其是对《全唐诗》《全宋诗》这一类成一代巨观的文学总集的语言体式的测量台湾政治大学刘昭麟团队曾以周至明两千多年间的九部代表性诗歌总集为语料库,对诗文学发展做了词汇水平上的长时段俯瞰,得出的结论虽浅显,却指明了几个有潜力的方向。他们将逐词索引(Concordance,词语搭配(Collocation)等传统的信息检索功能发挥到极致,用于比较两千年间某些特定语象(如“白日”)在不同诗人、文集或诗体间的使用频率(如杜甫、李白的“风”“月”之不同)、出现位置、搭配模式(如“白日”与“青山”对仗)、分布规律,及其在不同年代间的传承和演变关系。通过字符串匹配算法,不仅可以将历历代的“重出诗”一举搜罗出来,还可以提炼所有相似性段落,为进一步的借用和化用研究,以及校勘辑佚等文献工作提供工具[25]郑文惠教授等则主要借助检索中的词语搭配功能,深入探究了中唐诗人“白”色语象的构词特点,对白色词丛的意象链接方式做细读,可解读出社会阶层剧烈变动时期士人群体的情感结构与文化思维[26]。与此相类,邱伟云严程还曾研究过中唐诗人所偏好的空间方位词汇,以方位词前词缀与字频的计算,凸显了“人间”主题在中唐的涌现[27]此外,刘京臣也曾借助文本重用检索,就唐诗对宋词的影响展开全面的研究和解读[28]。李斌、何盈学和高策则运用计算语言学的基本指标,对四万首乾隆御制诗做字符、句子和诗篇层面的频率统计,通过与《全唐诗》对照,探究其“陈词滥调”的成因,再参考《清实录》等材料,统计历年创作频率变化并予以解释[29]

 

随着深度学习的语义技术的发展,各种基础大模型经过特定汉语语料的微调,可以训练出更有针对性的任务工具,相较以往,准确率和匹配度都大幅度提升。仅以语句的相似度计算为例,清华大学自然语言处理与社会计算实验室的“九歌类义句搜奇”,基于深层神经网络预训练模型BERT-CCPoe改进了句向量的相似度算法,即便没有任何一个字词相同,也可以将语义和意境相似的文句查询、提取出来,按相似度进行排序[30]。这一工具可用于特定意象词群的抽取和演变分析,继而惠及长时段文学史的“互文性”和传承影响研究。

在近年的体裁和文类研究中,语言和文学学者开始使用分类、聚类算法模型对文学文本做分类,通过观察分类结果与传统观点的差异,继而对历史观念的生成展开计算批评和分析。这一思路下,青年汉学家李友仁较早运用文本聚类方法,对明清小说、野史和正史的目录学基础展开批评性研究[31]。诸雨辰、李坤、胡韧奋团队做了一系列尝试,如运用基于神经词向量的大模型对《汉书·艺文志》中的存世文献进行自动聚类实验,以达成对《汉志》分类标准的反思[32]。或将分类算法与相似度计算结合,观察全上古三代秦汉三国六朝文”文体形态的发展演化过程[33]。在现代文类研究中,芝加哥大学文本光学实验室团队在与上海图书馆合建的“民国时期期刊语料库(1918-1949”基础上,分别尝试了基于特征,基于朴素贝叶斯算法,以及神经网络模型等多种分类效果,对近现代期刊中“新文类”的形构因素进行多层面探讨[34]。而如果将多特征建模和机器学习、网络分析结合,还可以用于边缘文体的形式独立性研究[35]在今天,以语言的向量化表示和深度学习为基础的大规模预训练模型经过微调后,可以直接用于聚类分类这样的下游任务,或许预示了未来数字人文取向的巨量文献研究的一种趋势。但应该看到,复杂模型带来了可解释性的下降,因而对于文学研究来说,引入模型的价值恰恰产生于研究者“主观介入”的环节,亦即为了解决问题而设计出的实验验证框架,以及通过细读和推理来破解算法黑箱的步骤。应该说上述实验再是简单的工具思维,而是带上鲜明的与学术史对话的意图,成为文学研究者深度介入的计算批评研究。

在近年的声律和节奏研究中,充分利用大样本、人工标注和统计测量,以事实数据来验证前人学说成为可行的方向。诸雨辰、胡韧奋以《全唐诗》为底本专门对15,290首律诗中的13,683拗句的平仄规律及其分布情况做详细的统计分析,发现了真正具有典型意义的拗就句式,重新提炼出唐诗平仄的基本原则[36]。循此思路,清华大学中国古典文献研究中心和统计学中心合作,采用自动标注与人工校补结合的方式,分别按《广韵》和平水韵对《全唐诗》注音,对《广韵》未收字、多音字及异读、变调等逐字逐句判定,尝试证实或证伪一些流传已久的命题,让人们认识到“唐诗格律更像是一个动态平衡系统”(李飞跃)[37]然而,如何根据大样本形成新的认识,而不仅仅满足于所谓“数据驱动”带来的冗杂结果,却仍然需要具备一定的抽象建模和特征挖掘能力,需要足够的远距离视野,把诸多不确定因素本身也纳入模型中来,以便发现整体上的趋势。在这方面,已经有研究深入到问题细部。如启用更全面的手段统计南朝至盛唐的五七言作品,勾勒永明声律规则向平仄律的演进的过程。根据唐人声律文献,分别于四声律与平仄律系统下构建契合当时创作观念的声律模型,衡量唐人作品对当世特定声律体系的遵守程度[38]。或进一步对“蜂腰”与“二四异声”的遵守情况采用“自然病犯率”,以衡量遵守某规则的难易程度,构建“合律度”公式以比较对困难程度不同的规则的遵守情况,再与诗格、诗论文献进行比对,分析这一历时过程中,此二类句内声调对立规则及其遵守情况的演变,进而对五言诗律句的形成过程进行更加细致的阐释[39]

在声律建模方面,另一个较富启发性的例子来自波尔多蒙田大学廖学盈教授对《诗经》所做的量化研究[40]为了挖掘兴体诗潜藏的节奏模型,作者以一种类似N元语法的频率-位置组合序列分析算法,辨识、抽绎出兴体诗的起句和应句之间的联结模式,继而将音韵、修辞和主题融为一身,对引譬连类的“修辞节律”做量化探源。这种序列分析模型最后还结晶为一种释读方法,即由二元样板样式”的句组间对位所形成的节奏复沓。这种释读离析出了更恒久动人的抒情结构,可以说正是经过一系列建模操作上的“现象学还原”,研究近乎理想地诠释了“兴”是如何在“涵泳讽诵”的释读传统中成为可能的。此外,在现代韵文的节奏建模方面,一种新的尝试是将机器学习的分类算法用于区分实验,在文类区分的框架下寻找重要的音组特征,重构现代汉诗的节奏层次理论,对一些争执百年的新诗理论问题给与量化回应[41]

 

除上述文学研究的固有议题外,还有为数不多的理工科团队或独立学者,借助或建构物理、数学模型深入文本结构研究。前者如高剑波等借助自相似分形理论中的Hurst指数对《哈利波特》系列电影台词情感时间序列的研究[42]。后者如刘洋对科幻小说和推理小说的叙事节奏、情节结构的识别和分析[43]。在这一系列研究中,为了将情感曲线或叙事节奏这些不易察觉的变化模式量化出来,研究者一般会设计识别算法抽取特征,成功表征后,再自建更高级的算法模型,获得诸如“情感时间序列的赫斯特指数”“节奏谱”“词频关联度”“词频集聚函数”等等指标的计算方法,在更大规模的数据集上进行验证和评估,最终完成可视化结果的解释。这一类研究可以说有强大的技术背景做支撑,无论是文本表示模型的建立、计算模型的发明,还是最终的测评指标的设计,都是不落窠臼,独辟蹊径的,让文科学者望尘莫及。也许问题只在于,如何从文学和文化研究内部提出更有价值的问题,从既有的学术脉络中获得一种历史感,而不是横空出世,或止步于探索工具和方法的可能性[44]

文学研究中的网络分析

在近十年的文学研究中,网络分析的应用大致可分为两类,其一是社会网络分析(Social Network Analysis),网络的意义往往附着在现实的地理系统或文献所蕴藏的人物生平社交关系信息之上。其二为文本网络分析(Textual Network Analysis),“关系”的意义需要人为构建,需要巧思并借助一系列计算方能专门表示。前者以对较大传记资料集中的文人世家、文学社群和文学活动形成的各种关系网络研究为代表,后者则集中在文本内部虚构的人物、空间、叙事、文体和美学风格的研究上。

 

社会网络研究较早的样版来自CBDB这样大型人物传记资料库所支持的群体传记学研究。由于这个数据库积累了719世纪数十万中国历代精英人物关系的现成数据,数量可观,可以把人物的亲属、任职、师承、通信、著述等关系信息直接导入网络分析软件计算,呈现不同时期士人群体的核心人物,派系划分,核心-边缘结构等情况,故而在古代史和古代文学文献研究中能派上较大用场。徐永明就曾结合《汤显祖年谱》和CHGIS中的系地信息,将汤显祖的社会关系准确投射到明代地图上[45]刘京臣为了发掘明清进士家族中的文学家族,爬取《中华寻根网》中的家谱目录来弥补CBDB关系表示上的缺陷,并将家族成员的亲属关系重新呈现在世系图中,试图从多角度验证“一经传家”的复杂问题。而如果引入家集诗词文赋中的唱和活动,则还可建构文学关系网络,进一步印证家族群体之间的交游关系[46]。同样是唱和关系,严程从清代女词人顾太清与其闺阁友人的著作编年中提取关系人,建构酬唱往来网络,发现了以顾太清为中心的女性诗人交游群体在“秋红吟社”存续期间的两次结构变化,从而“破解”了它的“中断之谜”[47]。这些研究虽然还未诉诸更具体的量化计算,但网络样态自身已作为关键的可视化证据而得到使用,在一定程度上增强了论说力。相类似的运用还可见于邱诗文对桐城派文人群体的可视化分析[48]

相比于真实的社会关系网络文本网络的建模通常更加灵活,文学研究者运用起来更从心所欲。他们通常会从文本中抽取可计数、且有研究价值的各种关系对子来建立矩阵,至于网络的意义该如何解释,各项结构指标又对应了何种意涵,则由具体问题和任意两个节点间连线的标准,亦即编码方式来决定。诸如人物的互动频率、对话强度、实体共现次数、地点之间的出发和到达关系等等,皆可形成关系网。许超曾在《左传》标注语料库基础上,将“人物”与“事件”的实体共现网络表示出来,再将其转化为人物-人物的社会网络,对这一“春秋人物网络”进行整体性和关键节点的挖掘,发现了它的小世界性,以及孔子作为最低聚-度相关度节点的特殊意义[49]Jack Chen等人较早运用网络分析研究了《世说新语》中人物的行为互动关系,并投射到地图上,从中可以观察到这部轶事集中的人物按时间顺序聚集的趋势,而不同的聚类又分明代表了不同的主题[50]。为了更好的探究《世说新语》中章节的编排机制,作者还做出人物-章节的二模网络,但似乎并没有更多新发现。可以说这个研究已初步涉及了出入度与中心度等指标的计算,也发现了一些值得深究的现象,但整体上仍偏重展示目的。此后,同样是轶闻小说,同样的方法则被秦颖扩展至对《唐语林》这样的宋代轶闻小说的研究中[51]。该研究将社会网络分析更为系统的运用于对文本中“语”的性质的细致探讨上。结合节点出入度、权威度,枢纽度的比较,而特别是“点击度分析”,她进一步提出了影响对话网络全局的“玄宗因素”,发现了其在后半部分发生的“反转”。

不难看出,此类虚构性文本的网络建模,关心的是深层的叙述意图和写作观念,与目前看到的大量定义简单,或仅仅是基于词共现的关系提取方式不同,往往会寻求意义更明确的关系界定方法并希望通过关系权重的加入,在加权网络中细致入微地考察角色关系问题。在这方面,廖俊凡在2010年便曾开发出一种描述会话角色关系的算法,用于《儒林外史》的对话网络建构及人物角色的解释[52]不过遗憾的是,在角色抓取的过程中,基于词夹子演算法的半自动提取方式准确率较低,大多数情况下还要靠人工。同样是对小说文本内部的关系挖掘,近年来哈工大建筑学院何捷团队的两项研究深挖文本数据,结合空间制图等技术,较成功地运用网络分析来诠释文本中的空间文化。在《中国古典叙事文学的时空叙事数字模型研究——以<李娃传>为例》《从唐小说中的空间交互看都城长安的社会感知变迁》中[53],他们对唐传奇人物的出行信息进行编码,用虚构人物的“移动数据”构建社会网络,试图通过模块度和相关性计算,建构起“基于坊里可见度的时间相关性网络”,从而探测出社区,寻找那些分散着的,但又属于同一群组的坊里之间的相似之处,去探究是什么让它们在初唐中唐盛唐和晚唐四个时期可见度的变化都相趋同,去表征社会权力结构更迭的空间性特征,继而从网络形态的变化中看出有唐一代长安人“情感结构”的变迁。

在现代文学研究中,文本网络分析的运用显然更轻易,也更容易为人们所接受,但是理想的研究也更难见到。问题在于,如何将单纯的关系抽取和严肃有意义的文学命题相对接,是需要下一番功夫的。如在关系的精细编码基础上,将人物关系问题转化为人物理论问题,利用中心性计算来发现叙述中的关键人物及其分布形态,以之揭示文本背后潜在的叙事意图和历史观[54]。或与词嵌入、主题建模等表示方法结合,构建以语义为基础的词共现网络,通过特征向量中心度等指标来发掘某类词汇的使用模式,探讨崇高修辞在当代叙事中的美学效果[55]

 

  应该看到的是,近年在深度学习和知识图谱的热潮中,关系提取已经发展为自然语言处理中的常规任务。很多人工智能实验室和数字人文平台都推出了关系的批量提取和可视化工具,一些独立研究也致力于研发更合理、复杂的人物关系识别模型,以供图书决策支持系统和个性化推荐之用。然而文学研究毕竟不是商业开发,基于深度神经网络和大模型训练而出的提取工具,自动化水平固然高,但对文学研究者来说,首先要寻找的却是可解释的、有问题针对性的关系编码方式。换句话说,关系的编码、抽取方式,是由所欲研究的具体问题决定的。当人们依靠现成的提取技术,把各种语义关系一股脑挖掘出来,却既无法给予其合理的解释,也不能施以意义明确的计算,那么这种庞然大物便失去了利用的价值。能否接受这一类建模方式,还取决于你是否相信并接受它自带的表征前提,例如一套最基本的语义分布假说,包括它的认识论基础和知识表示方式。然而对于很多人来说,我们并不仅仅生活在一个文本化的世界里,也不仅仅生存在一种语言结构之中。从这个意义上说,智能化”的技术能否进入文学阐释和批评并获得承认,其关键更在于能否成为人文学者推理、细读和论证的有效工具,被巧妙地整合进研究设计中,这更是一种计算批评的研究。

文学史研究的“系地”化与文学地理平台建设

近年的数字人文大发展中,文学地理学是率先提出数字化、实证化和技术化要求的领域,在其影响下,文献整理和文学史研究也越来越集中地体现出一种“系地”的努力[56]。这方面的工作,以王兆鹏团队、徐永明团队的研究和平台建设最为突出。其研究有相当大一部分聚焦于“文学版图”“文人群体的地理分布”“文化中心的变迁”这一类典型问题,以文化中心或南北分布格局的变化及因由为贯彻始终的关注点。可以看到,早期人们普遍重视文人占籍情况的考索和统计,王兆鹏教授曾以《全唐诗》《全唐诗补编》《中国文学家大辞典》《全宋诗》中的籍贯地为据,贯通唐宋,发现无论从数量上,还是大诗人的分布来看,诗坛的重心发生了明显的南移,这种转移始于晚唐五代,完成于北宋,而并非前人所认为的“始于安史之乱,成于靖康之役”[57]几年后,团队又借助《进士登科记考》中进士籍贯数据,对地方上的创作之盛与教育水平的相关关系予以讨论,复全宋诗》《全宋文》《全宋词》《全宋词补辑中提取、考订更全面的信息,将诗文词汇为一笼,揭示出有宋一代“百分之一的高产作者贡献了百分之五十的作品”,“孤篇存世”的作者占一半左右,浙江、福建、江西作者占“天下之半”,这样一种“分层分布”的结构状况,为人们从量化角度理解文学经典化和文学史的地形构造提供了数据支持[58]。同一时期,徐永明教授团队同样重视将籍贯数据和地理信息相结合。早先曾依据《全元文》和《全元诗》中的籍贯地信息,对地域分野明显的元代文学的作者分布进行可视化分析,观察到诗、文作者在地域分布上的精微差异,遂从文人教育背景与心态、理学思想的渗透,以及诗歌传统的生成等角度做出解释[59]近来又在此基础上加入了宋代部分的数据,宋元合观,力图以数据为证描述经历蒙宋战争后的文学版图,又发生了怎样的变化[60]而对明代作家分布的研究,则建立在中国文学大辞典·明代卷》的数据化上,这一新近研究还特别重视与《列朝诗集小传》《明诗综》所录作家籍贯的对比,从而进一步反观了所用选本的编选策略[61]

与仅以籍贯分布这一“静态数据”为衡量指标不同,为了真正加入流动性因素,王兆鹏团队也曾借助唐宋文学编年系地信息平台,使用一条条人工标注出来的、描述作家活动的编年系地数据,将作家一生途经或寓居某地的频次也统计进来[62]。据此行迹数据,可以“北方占籍诗人虽然多于南方,但活动人次却少于南方”的现象中,再次得出唐代诗人大多是向南流动的观点——而如果结合活动频次和诗歌产量还会发现,作为政治文化中心的长安,洛阳等地仍然是绝对的中心。

近年来空间人文和网络分析等领域兴旺发达,有了与文化地理学汇通的趋势,为人们从量化建模的角度深入此类问题提供了新思路。2020年,武汉大学地理信息团队与中南民族大学文传学院合作,在11万条文人足迹数据上构建了唐宋文人的大规模迁徙网络[63]。他们把统计网页点击率的PageRank算法,用于对城市节点的吸引力建模,设计出吸引力算法,再在不同时期的网络图中让全部城市按PR值大小显示,以此便直观地印证了先前研究的大量结论:如唐代文化以两都为中心,环太湖流域文人群体初现;北宋时开封和环太湖、长江流域文人聚集性崛起;南宋时江苏南部,江西,浙江城市群和福建、成都文人群体发展壮大,等等。此外,该研究还以二十年间隔的颗粒度,对南北城市的吸引力差异变化给出时间函数的精确表达,对中国文化中心的第二、第三次南移说做出了专门验证和评估。可以说,从最初对文人占籍情况的统计分析,到行迹数据的标引、加入,再到与GIS和空间科学汇通,该研究已经从数据科学、网络分析和GIS多学科交叉的角度,为这一课题画上阶段性的句号,颇有一种一锤定音的效果。

 

在地图技术和历史地理信息化的驱动下,一些积多年之功建成的文学地图平台也逐步向学界开放。这些平台的建设初衷,旨在突破既往作家年谱、别集笺注和编年史研究重时间编年而不注重空间系地的局限,力图实现文献资料的集成化和文学编年史的时空一体化,有助于对历代文人的行旅和写作做远读式研究,更有助于整合史料文献并将其转化为空间数据以厘清历史时空变迁过程中各种因果关连[64]。它们大都通过结构化数据表的多图层嵌套,实现GISWebGIS的初步架构,中南民族大学和搜韵网合作开发的唐宋文学编年地图平台[65],浙江大学和哈佛大学合作的“学术地图发布平台”[66]都在此架构上建成。以后者为例,平台在天地图和各种历史地图集之上,借助更大的地理信息系统(如CHGIS,嵌入地名字典、各级行政区划沿革的历史地理数据。从年谱、传记、路程书、方志等文献和研究中抽取信息,打上GPS坐标后,制作成点线面结合的矢量图层,便于编辑要素,获得地理属性,制作“行迹”并上传分享。各种人物的分布、行迹图层也可嵌套在不同时期,不同内容的底图上,通过时空对比来剖析某一事象的区域演变,或发现所关心的变量(如进士分布和文人聚集)之间的关系。2021年以来,这两个平台已分别扩展为更高级的知识图谱平台:“知识图谱”(https://cnkgraph.com/)和“智慧古籍平台”(https://csab.zju.edu.cn/具备了更全面、深入的知识重组和知识发现功能。此类综合性文学文献平台呼唤更多的研究成果和应用案例出现。

此外,台湾中山大学简锦松教授团队近两年也推出了“明清水陆路程与文学”全开放平台[67],为其多年主张的现地研究”之副产品,产出了一系列研究论著[68]。而在平台化阶段之前的相关成果则集中在《杜甫夔州诗之现地研究》《山川为证——东亚古典文学现地研究举隅》等著作中[69]。在这方面,安徽大学唐宸亦有诸多新颖研究发表,如利用天文软件进行天象模拟,对古典文学文献中的天象描写做挖掘分析和创作还原,从而达成对文人用典、作品系年等等历史事象的进一步考证,或将文本诠释推向更精微的境地[70]而邵大为近期的工作,则集中在对诗词作者一生书写景观的研究,以及文学景观数据库的建设之上[71]

文学数字人文的理论批评及主要问题

在众多人文学科中,文学学者大概是最热心于数字人文的理论和批评建构的群体。早期的理论兴趣,多由译介来体现。早在2013年,南京大学艺术研究院陈静便组织翻译了Susan HockeyKathleen FitzpatrickStanley Fish的文章。金雯、李绳的《“大数据”分析与文学研究》(2014)聚焦时下美国最新的文学数字人文成果,如MathewJockersMacroanalysis(《大分析》),描述了这种研究的前景及其在海外人文学界的真实处境[72]。自2016年起,戴安德(Anatoly Detwyler)、姜文涛在《山东社会科学》主持数字人文专栏“观其大较”,七年来翻译了霍伊特·朗(Hoyt Long)、苏真(Richard So)、安德鲁·派博(Andrew Piper)、弗朗科·莫莱蒂(Franco Moretti)、阿兰·刘(Alan Liu)、泰德·安德伍德(Ted Underwood)、马克·阿尔吉-休伊特Mark Algee-Hewitt)、李友仁(Paul Vierthaler等等多位活跃在北美数字人文一线的文学学者的量化成果。这些研究大都具有相似的价值立场和研究取径,近十年来围绕着如何运用建模来推理论证,形成了一套可行的方法论,可以说促成了国内“计算批评”研究取向的形成,也极大的影响了大陆第一本数字人文学术刊物《数字人文》的创办路线。此外,《数字人文》也译介了大量文学研究案例,内容涉及“远读”、计量文体学、文化分析、人文计算、机器学习、话语网络、数字文献、世界文学、数字汉学、思辨的基础设施等等与文学研究紧密相关的主题。这些译介的初衷,如开篇导语中交代的,引介者无法预料数字人文将会占据什么样的知识空间和话语场域,会产生什么样的问题,但却坚信,它“最终能够赓续和增补中国人文学术的伟大传统”。近年来,《数字人文研究》期刊也开辟领地,对盖哈特·劳尔,约翰娜·德鲁克等数字人文学者进行译介,还请海外学生、学者对Matthew Wilkens等重要的文化分析学者做访谈,全面介绍其研究理念,以及对最新技术的看法,其中不乏真知灼见。同时,这两本刊物也格外注意对国际数字人文的最新资讯的同步传播。

除译介外,来自文艺理论、外国文学和比较文学,以及艺术学的学者,也对数字人文的历史来源、发展,所面临的争议,及其和远读、计算批评的关系做出清晰的思考。这些理论思考带有批评的性质,具有较强的时效性和针对性,在掌握一定数字人文理论和实践经验的基础上,对当下中国数字人文的生产状况做出了判断和反思,在某种程度上真的影响了数字人文在中国,而特别是在文学研究中的走向。在这方面,陈静的《历史与争论》(2013)一文较早对数字人文在英美的发展和引发的争论做了检讨性综述[73]2016年,作为“观其大较”开篇的《数字人文作为一种方法:西方研究现状及其展望》,则对数字人文的历史和方法做了提纲挈领的介绍,迄今仍然是人文学者撰写的引用最高的导论文章。2018年以来,陈静在一系列文章中明确提倡开放边界和“复数的数字人文”,希望保留数字人文在不同学科、不同文化、不同语言间的多种可能性;一方面人文学者应有意识地提高自己的数字素养,避免“技术”的无感或盲目的乐观/悲观主义,增强协作意识,提高深度参与能力;同时,也应对算法和数据驱动保持清醒认识[74]。姜文涛将数字人文的兴起放在印刷媒介向数字媒介转型的大背景下,提醒人们注意作为专业领域的DH与西方近代人文研究职业化进程的内在关系[75]汉松最早在《朝向数字人文的文学批评实践》中紧扣John UnsworthKatherine Hayles等人的观点,敏锐地指出作为一套再现实践的数字人文,其计算的有效性并不等同于对计算工具的“皮相”套用[76]只有在利用工具的过程中,人的主体意识和算法产生了深刻的交互,才算具有了文化批评的人文主义价值。承此观念,赵薇认为数字人文须超越“工具角色”的阶段,以斯坦福大学文学实验室和芝加哥大学文本光学实验室的探索为例,可以看到莫莱蒂(Franco Moretti)的“远读”,逐渐为一种更具生产性和批判意识的“计算批评”所取代的过程[77]。尹倩、曾军则注重从理论层面梳理出与数字人文相对接的一套文本分析理论[78]。一言以蔽之,就像“数字史学”之于历史研究,数字人文要想在文学研究中真正“落地”,仍然需要具备一种迎合自身学科趣味和学术规范的具体形态。不同于现阶段大量探索对数字工具和平台的简单应用,计算批评承认解释的主观性、先在性、复杂性和天然难度,它强调建模在思考和推理过程中具有的重要作用,在“数据→模型→细读→理论→数据→……”的阐释循环中,文学研究者从自身的问题意识和细读体验出发,通过巧妙的实验设计论证问题,与数据驱动的结果直接对话,达到破除算法黑箱、发现文本背后的生产逻辑的目的,使“人”的维度在数字时代重放异彩[79]

遗憾的是,在现阶段的中文学界,理想形态的文学数字人文研究或者说计算批评研究仍然十分罕见,这或许是一个正常现象。对于文学研究或者广大人文学科来说,数字人文其实是一个门槛很高、受众稀少的领域,它对研究者(包括接受者)的计算思维、量化社会科学素养以及实践能力有相当的要求,容不得浑水摸鱼,也不存在模棱两可的中间状态。例如,没有任何量化基础和实践经验的人,或许可以通过阅读,习得一套法国后现代主义的哲学话语,在批评写作中尽情发挥,但是数字人文研究中,如果不经过相应的学习和训练,便很难有效参与到设计、部署、运行和评判计算批评实验的全流程中去,不要说照猫画虎的做,连是否真正理解了研究都很难说(当然,这并不妨碍他们继续制造“时髦的空话”)。在这一意义上,史蒂芬·拉姆塞当年将“做”或者“不做”作为区分数字人文学者的唯一标准,是不无道理的[80]

近年数字人文的热潮带动了对量化研究的兴趣,即便无力自己建模,也产生了一些用现成软件对现当代文学、文学杂志、网络文学做统计和词频分析的个案。然而现如今毕竟不同于三十年前,如果使用者仍无相应的量化基础,不能深入到算法层面和工具对话做细读分析,也无法凭借巧妙的实验设计和推理,将工具生成的“量化证据”严密地整合进论证中来,便有可能造成“新的蒙蔽”,迟早会像早期的文献计量或“计算文学研究”(Computational Literary Studies)在北美一样,遭遇尴尬的局面,引发一系列评价问题。事实上,“计算文学研究”论争的情况更加复杂,研究者们在文本表示、文学建模和实验设计、论证的科学性上已格外小心,可以说很多都堪为典范,但还是引来了吹毛求疵的批评,甚或上升到意识形态层面的文化批判,背后的真正因由令人深思[81]

数字人文呼唤跨学科、多学科的合作模式,然而普遍缺乏量化背景的文学学者在进入合作时,也会带来相应问题。例如合作的署名问题,牵涉到了更敏感的合作中的权力和等级关系问题。在项目制的运作方式中,在一些共同署名的研究中,不同于理工科合作,一些人文学者非但没有实际上的主导能力,连研究的目的和过程也不甚明了,那么,在一套相对成熟的合作、发表机制尚未建立起来的时候,那些已经在传统学界立身或处于上位的学者在与学生或不平等位置上的学者“合作”时,是否有勇气在发表中注明自己的实际贡献?而在另一些更大型、更光鲜的数字人文项目中,负责人除了跑场子,拉合作,作宣讲,是否还有更多实际研究层面的推进和设计,还是说变成了名正言顺的包工头?我们不能轻易将问题上升到“数字资本主义”对高等教育的渗透这么严重的层面,但是对文学研究而言,“懂技术”的学生(甚至本科生)提供数据,老师写论文(甚至不写论文)的模式,无论如何都不是那么光彩的。应该说,这类问题并非因数字人文而生,只是在文史哲一类纯文科卷入数字人文生产模式的时候,会更形触目,如果处理不当,也有可能引发更大范围的争议。

 

所以现阶段,除了探索或效仿一些已经建设得较好的团队合作、运营模式外[82],或许人们更应该静静等待,给有勇气和肯下功夫学习、摸索的青年学生、学者以真正“跨学科”的时间和耐心。对文科而言,大跃进式的生产建设和宣传只会产生更多浮夸的泡沫,引来更多投机者。在文学领域,我们看到越来越多借由数字人文名号而起的中心项目课程学位,一些暴得大名的“专书专论”、学者,却毫无实践经验,也拿不出像样的量化成果……事实上,和一切人文学术事业一样,文学的数字人文研究可能更加艰辛寂寞。数字人文的“烧钱”是众所周知的,无论是大规模文献的数字化、人工标注,还是训练或微调语言模型,都所费不赀,一些前沿探索根本申请不到课题经费,更不可能像常规学者那样“高产”,大多数青年学者在自掏腰包做着耗时漫长的基础工作,在得不到既有评价体系承认的边缘位置默默奋斗,甘苦自知,在异常焦虑、隐忍的状态下,“十年磨一剑”对他们来说并不新鲜。好在数字人文是一个不看头衔,不论资排辈,更凭实力说话的新场域,中国的数字人文要获得国际声誉,在数字时代赓续文脉,希望仍然寄托在这些踏实肯干的人身上。


注释:

[1] 例如20176月清华大学人文学院中文系、清华大学图书馆和芝加哥大学文本实验室联合举办的“数字人文与文学研究国际工作坊”;20195月中国社会科学院文学研究所举办的“数字人文时代的中国文史研究工作坊”;201911月中国艺术研究院中国文化研究所举办的“视点·焦点·拐点:数字人文与古典文学”论坛;20205月北京大学举办的“数字与文学的对话——数字人文规范对传统文学研究方法的挑战”研讨会202211月清华大学人文学院、《数字人文》编辑部主办,巴克内尔大学中国研究所协办的“声律·网络·未来——第三届清华数字人文国际论坛等等。

[2] 刘颖、姜文涛、陆晓芳主编:《数字人文与语言文学研究》,南京:译林出版社,2022年版。这也是文学数字人文研究在中国大陆的第一个成果选本。

[3] 这部丛书包括:项洁:《数位人文:在历史、现在与未来之间》,台北:台湾大学出版中心2016《数位人文研究与技艺》,台北:台湾大学出版中心2014《数位人文要义:寻找类型与轨迹》,台北:台湾大学出版中心2012《数位人文在历史学研究的应用》,台北:台湾大学出版中心2011《数位人文研究的新视野——基础与想象》,台北:台湾大学出版中心2011《从保存到创造——开启数位人文研究》,台北:台湾大学出版中心2011年。

[4] 本文将“中文”视为凝聚中华民族文化共同体的重要媒介,以“中文数字人文”为对象,将关注范围界定在海内外中文社区的文学数字人文研究。

[5] 田奕:《古籍整理与研究的电脑化》,《中国文化》,1994年第9期。郑永晓:《钱锺书与中国社科院古代典籍数字化工作》,《山东社会科学》,2019年第6期。栾贵明、李秦:《微电脑与古文献研究》,《古籍整理与出版情况简报》,1984820日,第127期。

[6] 刘岩斌、俞世汶、孙钦善:《古诗研究的计算机支持环境的实现》,《中文信息学报》,1997年第1期。

[7] 李铎:《从检索到分析——计算机知识服务的时代》,《文学遗产》,2009年第1期。

[8] 史睿:《论古籍的数字化与人文学术研究》,《北京图书馆馆刊》,1999年第2期。郑永晓:《古籍数字化与古典文学研究的未来》,《文学遗产》,2005年第5期。郑永晓:《情感计算应用于古典诗词研究刍议》,《科研信息化技术与应用》,2012年第3期。

[9] 尚永亮,张娟:《唐知名诗人之层级分布与代群发展的定量分析》,《文学遗产》,2003年第6期。尚永亮:《开天、元和两大诗人群交往诗创作及其变化的定量分析》,《江海学刊》,20052期。尚永亮:《唐五代贬官之时空分布的定量分析》,《上海大学学报(社会科学版)》,2007年第6期。

[10] 刘尊明,王兆鹏:《唐宋词的定量分析》,北京大学出版社,2012年。

[11] 罗凤珠:《引信息的“术”入文学的“心”——谈情感计算和语义研究在文史领域的应用》,《文学遗产》,2009年第1期。

[12] 林淑慧:《台湾历史数位图书馆(THDL)于清治前期采风诗文研究的应用》,项洁、瓮稷安等:《数位人文在历史学研究的应用》,台北:台湾大学出版中心,2011年。

[13] 关于《红楼梦》前八十回后四十回的作者统一性问题的情况,参见更详细的述评《量化方法运用在古代文学研究中的进展与问题》,《文学遗产》,2022年第6期。

[14] 陈大康:《从数理语言学看后四十回的作者——与陈炳藻先生商榷》,《红楼梦学刊》,1987年第1期。

[15] 李贤平《红楼梦成书新说》,《复旦学报》1987年第5期。

[16] 陈大康<红楼梦>成书新说”难以成立》,《华东师范大学学报》1988年第1期。

[17] 施健军《基于支持向量机技术的〈红楼梦〉作者研究》,《红楼梦学刊》2011年第5辑。

[18] X. HuY. Wang and Q. Wu,Multiple Authors Detection: A Quantitative Analysis of Dream of the Red Chamber”,Advances in Adaptive Data AnalysisArticle ID 14500122014.

[19] 如刘颖和肖天久的一系列研究。

[20] 杜协昌《利用文本采矿探讨〈红楼梦〉的后四十回作者争议》,项洁编《数位人文研究与技艺》,台湾大学出版社2014年版。

[21] 叶雷《基于计量文体特征聚类的〈红楼梦〉作者分析》,《红楼梦研究》2016年第5辑。

[22] 朱东旭、严广乐《基于LSTM<红楼梦>文本风格分界点识别方法》,《智能计算机与应用》2020年第10期。

[23] 马清华,周睿:《强程度概念的理据系统及其发生学机制》,《山西大学学报(哲学社会科学版)》,2023年第2期。

[24] 周睿,马清华:《<醒世姻缘传>作者归属的应用计量风格学研究》,《明清小说研究》,2022年第4期。

[25] 刘昭麟等:《〈全唐诗〉的分析、探勘与应用——风格、对仗、社会网路与对联》,The 2015 Conference on Computational Linguistics and Speech Processing, ROCLING 2015, pp. 43-57.刘昭麟、余泰明、康森杰《用数字工具探索中国古典诗歌:语言学、文学及历史视角之例证》,潘亦迎译,《数字人文》,2021年第2期。

[26] 郑文惠等:《情感现象学与色彩政治学:中唐诗歌白色抒情系谱的数位人文研究》,《数位人文:在过去、现在和未来之间》,项洁编,台大出版中心2016年版。

[27] 邱伟云、严程:《心寄乐园,凝望人间:中唐诗空间方位的数位人文研究》,《西南民族大学学报》2020年第8期。

[28] 刘京臣《盛唐中唐诗对宋词影响研究》,中国社会科学出版社2014年版;《晚唐诗对宋词影响研究》,中国社会科学出版社2021年版。

[29] 李斌,何盈学,高策:《多源数据参照的古典诗歌立体远读法初探——以乾隆四万余首御制诗为例》,《南京师范大学文学院学报》2022年第4期。

[30] “九歌异类句搜奇”http://jiuge.thunlp.org/souqi/。该工具也已整合进清华大学正在建设的“璇琮数字人文智慧平台(诗歌智能分析系统)”。

[31] 李友仁:《虚构与历史:明清文学中的对立与风格梯度》,汪蘅译,《数字人文》2020年第2期。

[32] 诸雨辰、李绅:《〈汉书·艺文志〉目录分类再审视》,《数字人文》2021年第3期。

[33] 李绅、诸雨辰、胡韧奋:《中国古代文体相似度的计量研究》,第三届中国数字人文年会(CDH2021)会议论文,202110月,分论坛8

[34] Spencer Stewart,赵薇:《“新文类”,比较文学与数字基础设施建设:以“民国时期期刊语料库(1918-1949),基于PhiloLogic4”为例的探索》,第二届中国数字人文年会(DH2020),202010月。

[35] 赵薇,程宁:《作为“新文类”实践的“散文诗”——基于多特征建模与网络分析视角的再认识》,第三届中国数字人文年会(CDH2021)会议论文,分论坛8

[36] 诸雨辰、胡韧奋《清人“拗就说”再审视——以〈全唐诗〉15290首律诗为样本》,《中国诗歌研究》2019年第1期。

[37] 李飞跃《唐诗格律的统计分析及问题》,《文学遗产》2022年第5期。

[38] 郝若辰、陆泉宇:《从永明到景龙:初盛唐近体诗声律规则的还原与重构》,《数字人文》2023年第1期。

[39] 陆泉宇:《永明体到近体句内声调对立规则的嬗变——以“蜂腰”与“二四异声”为代表》,《数字人文》2023年第1期。

[40] 廖学盈<诗经>的量化研究:挖掘兴体诗的隐藏节奏》,项洁编,《数位典藏与数位人文》20194

[41] 程宁,赵薇:Genre Identification on Modern Chinese Poetry Literature: an Exploration Based on Rhythmic Classification, Annual Conference of Digital Humanities:DH2023: Collaborations as Opportunities, Graz, July 10-14, 2023.

[42] 胡启月,刘彬,高剑波:《哈利·波特系列电影的客观评价:基于台词情感的自相似分形分析》,《数字人文》,2021年第1期。

[43] 刘洋:《科幻与推理小说中的解谜叙事——基于词频动力学的远读与可视化研究》,《数字人文》,刘洋:《对科幻小说叙事形式的识别与分析》,《数字人文》2020年第3期。

[44] 此类研究现阶段的最大功用或许是为后续相关研究开发出了通用工具,如胡启月等人设计的情感分析模型,也被用于中国戏曲台词的研究。详见丁语函,汪燕云:《基于时间序列和Hurst指数的越剧台词文本情感分析》,《影剧新作》,2023年第2期。

[45] 徐永明《中国古典文学研究的几种可视化途径——以汤显祖研究为例》,《浙江大学学报(人文社会科学版)》2018年第2期。

[46] 刘京臣:《大数据视域中的明清进士家族研究——以CBDB、中华寻根网为例》,《北京大学学报》2019年第4期。同类研究还有刘京臣:《社会网络分析视阈中的家谱、家集与家学研究——以清溪沈氏为例》,《山东社会科学》2022年第5期。

[47] 严程:《顾太清交游网络分析视野下“秋红吟社”变迁考》,《山东社会科学》,2018年第7期。

[48] 邱诗文:《可视性社会关系网络辅助文学流派界定方法探析——以桐城派文人群体为例》,项洁编,《数位典藏与数位人文》2021年第7期。

[49] 许超:《<左传>的语言网络和社会网络研究》,南京师范大学博士学位论文,2014年。

[50] Chen, J. W. ,  Borovsky, Z. ,  Kawano, Y. , &  Chen, R. . (2014). The Shishuo Xinyu as Data Visualization. Early Medieval China, 2014(20), 23-59.

[51] 秦颖<唐语林>中对话网络的可视化和统计分析初探》,《数字人文》2022年第1期。

[52] 廖俊凡《中国古典白话小说中的社会网络分析:以<儒林外史>为例》,台湾大学电机资讯学院资讯网络与多媒体所硕士论文,2010年。

[53] 马昭仪、何捷、刘帅帅《中国古典叙事文学的时空叙事数字模型研究——以<李娃传>为例》,《地球信息科学学报》2020年第5期。《从唐小说中的空间交互看都城长安的社会感知变迁》,《数字人文》2022年第1期。

[54] 赵薇:《社会网络分析与“<大波>三部曲”的人物功能》,《山东社会科学》,2018年第9期,修订版收入《数字人文在中国(1980-2023)》,赵薇,李飞跃编著,大象出版社即出。《网络分析与人物理论》,《文艺理论与批评》,2020年第2期。

[55] Maciej Kurzynski(马杰):On the Technology of the Sublime in Modern Chinese Narratives”,《数字人文》,2022年第1期。

[56] 系地一说,自20世纪90年代起渐为学界所重视,为王兆鹏教授首倡。参见曾大兴《中国历代文学家之地理分布》,湖北教育出版社1995年版,第1页;王兆鹏,蒋晓晓:《时空一体化——唐宋文学编年地图平台的学术理念与学术价值》,《三峡论坛》20205期。王兆鹏、邵大为《数字人文在古代文学研究中的初步实践及学术意义》,《中国社会科学》2020年第8期。

[57] 王兆鹏《唐宋诗歌版图的空间分布与位移》,《中国人民大学学报》2016年第6期。

[58] 王兆鹏、齐晓玉:《宋代诗文词作者的层级与时空分布》,《中南民族大学学报》2022年第1期。

[59] 徐永明、唐云芝:《<全元诗>作者地理分布的可视化分析》,《浙江大学学报》2019年第1期。

[60] 徐永明、林施望:《从<全宋文>等四部文学总集看宋元文学版图的变化》,未刊稿。

[61] 李菁、徐永明《明代作家的空间分布于可视化分析——以<中国文学大辞典·明代卷>为例》,《浙江社会科学》2022年第2期。明代的相关研究,还可参见Lixinag Qian. Distribution Maps of Chinese Poets in the Ming Dynasty (1368-1644): A Geographical Visualization Experiment. Library Trends, Vol. 69,No.1, 2020.

[62] 王兆鹏、王艳《唐代诗歌版图的静态分布于动态变化——基于<唐代文学编年系地信息平台>的数据分析》,《中南大学学报》2020年第1期。

[63] 应申、侯景洋、周钰笛、窦小影、王兆鹏、邵大为《基于唐宋文人足迹集聚性分析的中心文化城市变迁》,《地球信息科学学报》2020年第5期。

[64] 陈刚“数字人文”与历史地理信息化研究》,《南京社会科学》2014年第3期。

[65] https://sou-yun.cn/PoetLifeMap.aspx

[66] http://amap.zju.edu.cn/

[67] https://www.dhlib.cn/mqrl

[68] 如简锦松,唐宸:《李白诗“相看两不厌,只有敬亭山”现地研究》,《陕西理工大学学报(社会科学版)》,2018年第6期。简锦松:《现地研究与辛弃疾词的新读法》,《数字人文》,2020年第0期。简锦松,廖泫铭,王勇等:《明钱榖<纪行图册>、张复<水程图>之大运河现地研究与GIS呈现(之一)》,《数字人文研究,2023年第1期。简锦松,廖泫铭,王勇等:《明钱榖<纪行图册>、张复<水程图>之大运河现地研究与GIS呈现(之二)》,《数字人文研究》,2023年第2期,等等。

[69] 简锦松:《杜甫夔州诗之现地研究》,台湾学生书局,1999年;《山川为证:东亚古典文学现地研究举隅》,台湾大学出版中心,2018年。

[70] 唐宸:《天象模拟在古代文学研究中的运用——以Stellarium软件为例》,《数字人文》2020年第1期。

唐宸:《理念与方法:天象模拟技术与古典文学经典作品研究》,《文学遗产》,2022年第6期。唐宸,刘梦涵,黄雅丽:《“天星散落如雪”:李隆基“唐隆政变”与英仙座γ流星雨》,《数字人文》,2022年第2期。

[71] 邵大为,陈逸云:《建设文学景观数据库的价值与方法——以<方舆胜览>为例》,《中南民族大学学报(人文社会科学版)》,2020年第1期。高武斌,邵大为:《北宋元祐文学的图景特征——基于<唐宋文学编年地图平台>对元祐文学的定量分析》,《中南民族大学学报(人文社会科学版)》,20235期。

[72] 金雯、李绳:《“大数据”分析与文学研究》,《中国图书评论》,2014年第4期。

[73] 陈静:《历史与争论——英美“数字人文”发展综述》,《文化研究》,2013年第4期。

[74] 陈静:《当下中国“数字人文”研究现状及意义》,《山东社会科学》,2018年第7期;《复数的数字人文:比较视野下的中西数字人文》,《中国比较文学》,2019年第4期。

[75] 姜文涛:《作为一种文学研究方法的数字人文——印刷文化基础设施,20世纪文学批评史,以及文学社会学》,《中国比较文学》,2019年第4期。

[76] 但汉松:《朝向“数字人文”的文学批评实践进路与反思》,《文化研究》,2018年第2期。

[77] 赵薇:《从概念模型到计算批评:数字时代的“世界文学”研究》,《中国比较文学》,2019年第4期;《数字时代的世界文学研究:从概念模型到计算批评》,《外国文学研究动态》,2020年第8期。《从概念模型到计算批评——Franco Moretti之后的世界文学研究》,《西南民族大学学报(人文社科版》,2020年第8期。

[78] 尹倩,曾军:《形式与意义:数字人文视域下一种可能的文本分析理论》,《山东社会学》,2021年第11期。

[79] 赵薇:《作为计算批评的数字人文》,《中国文学批评》2022年第2期。

[80] Stephen Ramsay,Whos In and Whos Out.Authors blog, January 8, 2011. http://stephenramsay.us/text/2011/01/08/whos-in-and-whos-out.

[81] 对计算文学论争的全面清理和反思,详见《如何在“建造”中思辨?数字人文论争反思》,《山东社会科学》,2024年第9期。

[82] 详见冯惠玲教授在“数字人文的学术评价体系:定义与规范建构”研讨会上的发言。王涛,陈静,吴雪映:《“数字人文的学术评价体系:定义与规范建构”研讨会发言汇编》,《数字人文》,2021年第1期,8-11页。