首页 > 专题专栏 > 学界研究成果 > 理论与批评
词谱研究的数字化实践与反思

 

随着研究思路的拓展、技术手段的普及,近十年间使用定量分析的方法研究中国古典诗歌的声律规则已经成为了新的学术热点。杜晓勤主持建设的“中国古典诗歌声律分析系统”极大地推进了近体诗律研究。《“中国古典诗歌声律分析系统”的研发过程与学术价值》[1]一文全面地展示了数据库整理、程序架构以及研究过程中遇到的各种问题,产生了非常好的示范效应。还有如李飞跃《唐诗格律的统计分析及问题》[2]、诸雨辰、胡韧奋《清人拗救说再审视——以〈全唐诗〉15290首律诗为样本》[3]等文也使用相似的方法,对诗律的很多具体问题形成了更为客观的认识。大数据分析诗律已经有了很多优秀的范例,但人们却很少涉及词律问题。杜晓勤、李飞跃等学者的研究项目皆以“古典诗歌”为题,宋词显然也是广义“古典诗歌”的一部分,但现有成果都还未有关涉。词学研究者对于使用定量分析的方式来研究词的声律问题虽然也做出了一些尝试,如朱惠国《论辛弃疾二十四首〈临江仙〉的体式及其词谱学意义》[4]、刘尊明《唐宋词调研究》[5]等。不过此类研究往往只涉及了具体的几个词调,虽然也有数据分析,但与同类型的诗律研究相比,在数据库构建、样本采选范围、程序设计、整体规律性探知等层面仍有明显的不足。本文从宏观词谱设计的角度对大数据词谱研究的必要性、研究目标、方法途径等基本问题进行了初步解说,对实验过程中遇到的问题进行策略分析,聊作引玉之砖。

 

 

 

 

一、字声分析在词学传统中的价值

 

诗律的理论体系是非常成熟的,虽然学界对于“四声八病”“拗救”等具体问题仍有争论,但对于基础诗律系统的客观性、规律性、完整性早已有广泛的共识。而“倚声”之法同时受到音乐、字声两个要素的影响,历史上人们对于“填词”背后的声辞配合模式并没有形成固定的认识。对填词方法没有共识,人们自然也会对技术手段的干预抱有谨慎的态度。词学研究是否能像近体诗一样直接引入大数据分析仍是一个需要论证的话题。

 

词调是否有固定的声律规则?不同类型的词调声律规则是否相同?在不同时期是否又有变化?词的发展具有相当长的时间维度,由唐宋至明清直到今日代不乏人。与律诗不同,各个时期的人们对于填词方式的理解是有显著差异的。夏承焘《词四声平亭》言:“唐词自飞卿始严平仄。宋初晏、柳渐变上去,三变偶谨入声。清真益以变化,其兼守四声者,尤仅限于警句及结拍。自南渡,方、吴以还,拘墟过情,字字填砌。”[6]也有些学者认为词并没有固定的声律规则,如李飞跃《律词辨正》所言:从词体的全部构成要素与历史形态来看,并不存在普遍和绝对意义上的词律。”[7]如今数据分析在技术层面已经没有什么难度可言,研究的目的、理路可能才是最需要慎重考量的问题。

 

今天我们去研究、创作古典诗词,是优秀文化的感召,是好古之心的驱使。而词学的“传统”实际上有两个层面,一是唐宋词学的传统,二是明清词学的传统,无论是依从哪种传统,对于发掘词调声律规则的需求是一致的。

 

宋时虽然没有格律谱,但考求字声对于宋人而言依然是有价值的。“倚声”是词有别于诗的特色所在,“倚声填词”作为词的基本创作方式亦为人所熟知。学界一直有观点认为词谱是乐谱的替代品,使用词谱填词是等而下之的权宜之计。这种想法是不对的,“倚声填词”其实是非常困难的创造性活动,只有极少数精通音律者才能偶尔为之,绝大多数宋人也是参考通音律者创制的经典例词“依词填词”,以“赓和”的模式完成填词活动的。如沈义父所言:“腔律岂必人人皆能按箫填谱。”[8]杨缵《作词五要》:自古作词,能依句者已少,依谱用字者,百无一二。”[9]倚声固然是理想状态,但实际上绝大多数参与填词活动的宋人根本无法做到。

 

张炎非常反对“依旧本之不可歌者,一字填一字”[10]的做法,但他自己也根本不能免俗。其《西子妆慢》一词小序言:惜旧谱零落,不能倚声而歌也。”[11]可见即使没有乐谱、不能歌唱也并没有影响张炎依词填词。这也并不是南宋时才有的特例,北宋李之仪《跋〈小重山〉词》言:是谱不传久矣,张先子野始从梨园乐工花日新度之,然卒无其词。异时秦观少游谓其声有琴中韵,将为予写其欲言者,竟亦不逮。崇宁四年冬,予遇故人贺铸方回,遂传两阕,宛转䌷绎,能到人所不到处。从而和者凡五六篇……”[12]从李之仪的这个案例也可以看到,度曲、倚声填词、依词赓和是三个不同的环节,“倚声”是其中最困难的环节,即使秦观也曾力有不逮,能够供李之仪学习仿效的是贺铸这样的知音者创制成型的、文本形态的歌词。既然是模仿文本歌词,字声就是最核心的要素。宋人也要考虑字声问题,所以说对于词调的声律分析其实是符合“唐宋传统”的。

 

只要是普遍存在的问题,就一定有规律可循。当然,不同时期的词人对于填词方法、声律规范的理解有着非常显著的差异,唐词、宋词完全是两回事,即使是宋词,也有诸多变化。宽严之道往往又因人而异,即使同一个作者,也不能保证在所有创制中都采用完全同一的标准,这就要谈到词学的“明清传统”了。

 

明嘉靖十五年(1536),张𫄧创制《诗余图谱》,这是历史上第一部真正意义上的词谱。其实在很早以前就已经有很多词选具有指导填词的功能了,比如陈元龙《详注周美成词片玉集》、杨缵《圈法周美成词》都有一定解析词调的功能。《诗余图谱》与其他具有指导填词功能的词选最大的不同是标注“可通融处”。可平可仄的“可通融处”是一个很大胆的、很“奇怪”的创新。人们总会说哪里声律紧要,不紧要的地方也不意味着可以随便填——哪个创调者会承认自己精心创作的曲子有“声律无关紧要”的地方呢?宋人依词填词当然也不能一字不讹,李清照对晏殊、欧阳修、苏轼尚有不协之讥。越是熟调,参与赓和的人越多,越是容易出现各种变讹。但对宋人来说,不协总归是自己才思不敏。如仇远所言:一字未合,一句皆废。一句未妥,一阕皆不光彩……老伶俊倡,面称好而背窃笑。”[13]社会风气如此,怎么可能有标注可通融处的词谱呢?谁人敢作,岂不是贻笑大方?

 

𫄧不是不知道“上去入皆关声律”,但他认为通变之法更重要。《诗余图谱》凡例有言:“尝闻人言,凡词曲上去入声与旧调不同者,虽可歌,播诸管弦则龃龉不协。不知此正由管弦者泥习师传,无变通耳。”[14]《诗余图谱》三仄归一、可平可仄的通融之法大幅降低了填词的难度,使得更多普通文人参与其中。明代中后期填词作者陡增与《诗余图谱》的通融之法有很密切的关系。某种意义上说,张𫄧的通融之法“拯救”了词学。通融之法确实有失“唐宋传统”,但对于一种文体的生死存亡来说,稍有龃龉也显得可以接受。

 

到了清初,使用词谱进行填词已经成了默认的填词方法。查慎行《陪猎笔记》记载,康熙帝于康熙四十二年(1703)六月十四日曾向查慎行索要词谱:傍晚,回帐房。内侍传问,行笈中带有《词谱》否?遍讯不可得……”[15]此时尚未有《钦定词谱》,《词谱》当是泛指任意词谱。皇帝尚且如此,民间风气自不必说。康熙本人有使用词谱填词的习惯,自然也就有动力推动《钦定词谱》的编纂。从明清传统的角度来说,依照词谱规定的声律规则来创作已经是固定的游戏规则,发掘古词规律,研制更精良的、更有说服力的词谱更是应有之义。

 

 

 

 

二、传统制谱方法与大数据理论

 

明清时期编纂词谱有三种基本方法,分别是诗律法、四声法、互校法。其中认可度最高的互校法本质上就是程序化、规模化、精细化的字声统计,其思想内核与今日的大数据理论其实是完全一致的。

 

三种传统制谱方法中,参考诗律句式的情况在明代词谱中比较普遍。例如毛晋词谱《词海评林》卷首有“合律正调”:“三字:‘仄平平’平粘平韵……五字:‘中平中仄平’平粘平韵,‘中仄仄平平’仄粘平韵……”[16]三字、四字、五字、六字、七字皆按律诗标准设置。万树《词律》中也有很多词调参考了诗律,如温庭筠《南歌子》七首词万树将其标为偷(可仄)眼暗形相”“不(可平)如从嫁与,也即将平仄仄平平”“仄平平仄仄绳以律句。《钦定词谱》通过严格互校,认为此体全词平仄一字不可改易:温庭筠词共七首,平仄如一,填者宜遵之。”[17]

 

以经典例词制四声谱是从曲谱中借鉴的方法,又称为“务头”“妙处”理论,即认为经典词作有独特的声律考量,要严辨四声,一字不讹。万树最早将这套理论借鉴到了《词律》中,但只是在部分词调的“妙处”区分四声。《碎金词谱》字字标注四声,即这种制谱理念进一步发展的结果。

 

诗律、四声谱是从诗学、曲学中借鉴的方法。词的发展本介于诗、曲之间,诗律法制谱也即放大词中诗律的要素,四声谱则是放大词中南北曲的要素。今天诸多探讨词的声律的研究其实也都在这两种倾向的笼罩之下。如王力、启功先生论词律的诸多论著都是偏重于诗律理念,认为词律就是诗律中律句与拗句的变化搭配,这本质上与《词海评林》的“合律正调”是一样的。民国时期有很多学者字字恪守四声,一字不敢逾越,则是曲学理念的生发。

 

互校法是词学本位的研究方法,最普遍、最通行,也恰恰是最需要大数据分析的一种研究方法。宋人填词依调赓和,同调词作相互参考本来就是很自然的事情。这种“互相参考”在《词律》问世以前没有形成固定的规则,哪些词可以互校,哪些不宜互校,尚无固定的标准。比如康熙十八年(1679)付梓的《填词图谱》在《浣溪沙》第一体上片末句除了韵脚以外皆标可平可仄,遭到了万树猛烈攻击。其实这是因为《填词图谱》将薛昭蕴平韵《浣溪沙·粉上依稀有泪痕》与李煜仄韵《浣溪沙·红日已高三仗透》互校。薛昭蕴词上片末句为远情深恨与谁论,李煜词为红锦地衣随步皱”,“仄平平仄仄平平”和“平仄仄平平仄仄”相校也就得出了“中中中中中中平”[18]这样令人啼笑皆非的谱式。康熙二十六年(1687),万树在《词律》中完整阐释了互校制谱的研究方法,并在各调按语中结合具体案例完整展示了互校制谱的过程。而《钦定词谱》更是以严格互校著称,其后互校法逐渐成为了词谱的主流研究方法。诗律法消解了词的文体特色,四声法又过于拘泥。人们既想追求词调独特的声律结构,又想有一定的可通融处以降低填词难度,互校法反而成了满足两方面需求的最佳选择。

 

互校法也有一些缺陷,与诗律法、四声谱之间存在一定的冲突。与诗律的冲突是:宋人填词本身确实有参考诗律的情况,尤其是齐言、五七言令词。严格互校会导致本来有声律规则的句子,互校之后的图谱反而无法使用。《钦定词谱》中《生查子》等调在互校之后会出现五字皆平仄不论的情况,实际上这并不是意味着可以随意填写,只是因为这种冲突才导致这种情况。与四声谱的冲突在于:互校无法体现参校对象的权重。宋人并非皆精通音律,一调如九人为平,一人为仄,依互校理论只能标记“平而可仄”,最终得出的词谱很可能与创调者的本意出现背离。

 

大数据分析与互校法制谱具有天然的契合度。其一是互校法的本质是文献归类比对,这本来就是一种非常强调程序化、规模化、精细化的研究活动,使用编程手段替代一部分机械劳动是很容易的。

 

其二,大数据分析恰恰可以弥补上文提到的传统互校法的两个缺陷。将自动标注字声后的句子与律句模板进行比对,自然可以判断出不宜互校的词调或句子。当今数据分析手段极为丰富,不仅可以通过百分比直观地展示出四声、平仄的频次关系,更可以通过调整权重、绘制离散关系图、声律建议等形式灵活处理统计中遇到的各种情况。

 

其三,今人模仿唐宋经典词作填词本质上是一种对经典权威的“迷信”。古人、名贤自带光环,使人无法反驳,这也使历史上很多精研词律的词家最后都走上了四声填词的道路。然而大数据分析为我们提供了另外一种可能,数据在某种意义上说也具有一定的“权威性”,数据自带的说服力正是词谱重纂实践中迫切需要的。

 

另外,数据分析还可以设计多种方案。比如可以在数据组中排除创调者、首见调,仅分析“和词”。通过对“和词”字声宽严之处的辨析,可以了解宋代普通文人如何模仿例词、解构词调,也不失为一种四声谱以外接近“唐宋传统”的理想模式。

 

 

 

 

三、数字化方法与理路

 

通过大规模的数据分析来进行声律研究的成果、学者已有不少,每项研究的具体目标不同,方法也各有差异。总体来说,设计一个满足基本要求的声律分析程序是比较容易的。但词和近体诗不同,词调形态各异,很难形成统一的研究方案。为每个词调都专门设计一个展示平台需要很大工作量,在综合比较之后,我们更倾向于使用Excel自带的函数。Excel相比其他编程语言有更好的互动性,可以应对不同情况随时调整,现阶段研究中涉及的笺注字声、多音字辨析、字声比对、句段统计等需求都可以通过函数达成。标注字声的方法是诗词文本库与字书库的双库比对。将《广韵》《词林正韵》等字书整理本形成的字库依据平、仄分别置入两个单元格,在Sheet1中写入如下函数:

 

=IF(IF(ISNUMBER(FIND(A1,Sheet2!$A$1)),1,2)=IF(ISNUMBER(FIND(A1,Sheet2!$A$2)),1,2),"多音字",IF(ISNUMBER(FIND(A1,Sheet1!$A$1)),"",""))

 

如果要实现四声标注,只需将字书库分为平上去入四个单元格,检索函数再嵌套几层逻辑判断即可。将诗词置入单元格后,手动使用分列功能形成一格一字的文本,也可以借助Python.docx库、Python.xlxs库批量处理数据,复制判断函数也就完成了自动笺注字声。

 

关于多音字的处理一直以来是大数据声律分析中的难点,很多学者会选择人工辨识。比如杜晓勤教授开发的“中国古典诗歌声律分析系统”:“本系统采用人工提前干预的方式,将四声和平仄标注过程中多音字处理的主动权直接交给使用者。系统使用者音韵水平的高低决定四声和平仄标注的正确性,当然也决定了声律分析数据的准确度。”[19]也就是完全通过人来判断。这样的做法无疑极大地增加了劳动量,而且很依赖学者个人的音韵学水平,难以实现分工合作。

 

比较容易的方案是通过建立“多音字词组库”进行查找判断。以词组来标记、判断多音字其实也是古人的常见做法,我们完全可以从中借鉴思路。清人词集、词谱往往会对需要注意的多音字进行特殊标注。孙致弥、楼俨编纂的《词鹄初编》是一部刊刻于康熙四十四年(1705)的大型词谱,这部词谱中就有大量的调下按语用来辨别多音字。如《倒垂柳·晓来烟露重》一词下注:“‘露重去声,重阳平声。”[20]《雨中花慢·坠髻慵梳》:“‘更深’‘,平声;更散’‘,去声。”[21]由此可见,古人也是通过词组来表达、判断多音字的。

 

《词鹄初编》共有762调,已经涵盖了绝大部分常见词调。书中凡遇多音字必有标注,标注1,123次,但其实总共只有34个不同的多音字。34个字的出现频率也有很大差异,其中字达到了189次,字达到了135次,其余频次较高的还有”“”“等。也就是说,只要我们将诗词中多音字频繁出现的词组编纂成词组库,就已经可以解决绝大部分多音字问题了。例如多音字平声词组库(更漏、三更)、(细看、相看)、(还胜、不胜)、(谁教、不教、长教、教君)。这个词组库可以自建,也可以借助网络上的辞典库,但其实没有这个必要。诗的内容涵盖极广,无事不可入诗,多音字问题自然更加复杂多变,而词的下字非常有规律性,就笔者的体会而言,一百余词的词组库其实就已经能覆盖约80%的词作了。

 

当然,也有很多多音字无法通过词组判断。比如“更”字用作去声时一般都是领字,领字无法组词,也就无法通过词组的方式判断。但是“更”作为平声时的词组是非常固定的,比如“更漏”“三更”,平声词组库可以解决绝大部分非领字的“更”。而词中领字的识别是非常容易的,一望便知,人工识别也并不需要花费很多精力。另外,也可以通过锁定诗词文本库中“,”“。”之后次句首字的方式来识别领字,从编程的角度上说也并不困难,只不过可能还不如人工识别更有效率。

 

多音字判断同样也可以通过Excel函数这样的简易方法达成。加上多音字判断的函数式:

 

=IF(IF(IF(ISNUMBER(FIND(B1,Sheet2!$A$1)),1,2)=IF(ISNUMBER(FIND(B1,Sheet2!$A$2)),1,2),"多音字",IF(ISNUMBER(FIND(B1,Sheet2!$A$1)),"",""))="多音字",IFERROR(IFERROR(VLOOKUP(CONCAT(A1,B1),Sheet3!$A:$B,2,0),VLOOKUP(CONCAT(B1,C1),Sheet3!$A:$B,2,0)),"多音字"),IF(IF(ISNUMBER(FIND(B1,Sheet2!$A$1)),1,2)=IF(ISNUMBER(FIND(B1,Sheet2!$A$2)),1,2),"多音字",IF(ISNUMBER(FIND(B1,Sheet2!$A$1)),"","")))[22]

 

词组判断其实也有一些问题。历史上“一字多音”这种语言现象的形成因素是非常复杂的,音变未必义变,义变也未必会造成音变。不过在数十调、数百调的互校运算中,错误的数值会影响结论,而缺省的数值等同于减少一个样本,减少一个样本其实对最终结论的影响很小。在有了初步结论后,我们甚至可以通过数据反推字声,为词学史上“以入作平”“以上作平”等疑难问题提供新的解释。

 

词的大数据分析还要面对长短不一的句子的断句问题。其实在词体的声律规则中往往只有“大韵”是不可改易的,一般每十余字构成的乐句为一“大韵”或称之为“均拍”“韵断”。乐句中要求前后拈连、气脉一贯,本不需要严格点断。只要通过韵脚分析识别出“大韵”,以“大韵”为核心框架进行声律分析,就已经能满足研究需要了。当然,我们仍然可以使用技术手段达成断句的目的。从语意层面来说,中华书局籍合网研发的“自动标点”系统对于词的断句也具有极高的准确率,成就令人欣喜,有极好的经验供我们参考。从声律层面来说,在程序完成自动笺注字声的训练以后,可以借助字声规律达到辅助断句的效果。

 

 

 

 

四、现阶段研究存在的疑难问题

 

数据分析方法介入词律研究的技术门槛并不高,但其中也有很多在现阶段难以解决的问题。首先是数据库建设过程中的文献版本问题。大数据分析诗律一般会采用《全唐诗》《乐府诗集》等总集,词律研究往往也会借助《全宋词》。然而这些总集、整理本最大的问题是无法展示诗词的版本差异。这一点对于诗律研究尚可接受,而对于词律研究却是非常严峻的考验。

 

一是因为词调的样本本来就比较少,很多词调两宋时期只有几首、几十首词存世。上万首齐言诗的样本库尚且可以删除、忽略一些版本歧异的作品,而宋词的史料库很难承受这样的挑拣。而且近体诗大多是整齐的五七言,即使版本不同,至少在字数上不会有很大差别。词中很多僻调本来就只有很少几种样本可据,由字数差异带来的影响更是会被无限放大。

 

二是词调的传播具有明显的“流行效应”,越是具有声律借鉴价值的名家词作,版本越是复杂。尤其是柳永、周邦彦这样精通音律,在词律研究中占有极高权重的作者,其词集的版本差异在宋代就出现了,很难说哪一种才是真正“正确”的版本,所以也不能简单地判定、选择其中某一种。

 

例如《拜星月慢》一般认为是周邦彦首创调,其《拜星月慢·夜色催更》一词上片第三韵历来有两种版本。毛晋汲古阁本为17字:笑相遇,似觉琼枝玉树,相倚,暖日明霞光烂。”[23]而陈元龙《详注周美成词片玉集》为15字:笑相遇,似觉琼枝玉树,暖日明霞光烂。”[24]少了相倚二字。毛晋所据为宋淳熙七年(1180)刻本,陈元龙为宋嘉定四年(1211)刻本,都是权威宋本。更使人为难的是,宋人依照两种周邦彦词集依词填词,赓和的词作也存在两种版本:

 

 

 

敛蛾黛,怕似流莺历历,惹得玉销琼碎。(彭泰翁)

 

画檐外,树色惊霜渐改,淡碧云疏星烂。(陈允平)

 

叹游荡,暂赏吟花酌露,尊俎,冷玉红香罍洗。(吴文英)

 

想人在,絮幕香帘凝望,误认,几许烟樯风幔。(周密)

 

 

 

 

 

 

 

很明显,彭泰翁、陈允平阅读到的周邦彦词是15字的版本,而吴文英、周密阅读到的是17字的版本。唐圭璋《全宋词》选择了15字的版本,如果我们直接使用《全宋词》作为数据库,程序就无法正确解释吴文英、周密词17字版本的成因。类似的情况非常普遍,版本问题是大数据词谱研究最难解决的环节。《全宋词》固然已经是迄今为止最好的宋词总集,但仍然不能满足词谱研究的需要。而重新编纂一个具有多种版本渊源、能够准确反映词调声律发展史面貌的宋词版本全库是一项极为艰巨的任务。就笔者所见,如吴讷《百家词》这样在宋词版本学上价值极高的著作,也尚未有古籍数据库提供商整理收录。不过今日的古籍数字化进程很快,这样的设想也许在未来能够实现。

 

大数据词谱研究中另一个困境是如何准确地选择参校对象,解决词调的分体问题。一个词调往往有多种体式,体式差异到什么程度才能视作是新的“变体”在历史上就有颇多分歧。《词律》的主张较为通达,而《钦定词谱》则有一字不同就要另分一体,《词鹄初编》主张宫调、技法不同(如《湘月》《消息》)即使字数一样也不能互校。这些问题并非一定不移之铁律,还是要受到人们研究视角、学术倾向的影响。由此引申出的问题还有词的上下片是否能互校?唐词、俳体词以及如《哨遍》这样的散文体词是否能互校?如若不能,判断、排除的依据与尺度又该如何设置?如果不介入主观因素,这些问题往往也没有一个毫无争议的解决方案。但如果过度依赖人为判断,对数理分析的客观性无疑是一种消解。

 

另外,由于传统互校法制谱本身也会用类似的“文献池”方式分析校对词调,新的研究方法尽管可以大幅提升效率,但对旧谱整体上的修正其实是比较有限的。更重要的是要利用数据去检验明清以来代代相传的“填词秘法”,有针对性地探求、解决词律研究中的“妙处”“上去、去上紧要处”“以入代平”“三字豆”等疑难问题。

 

虽然这些困难对研究的整体效果有一定的影响,但总的来说,大数据分析与词谱编撰、研究有着很高的契合度,具有较好的实施前景。基于这些问题,我们在当前的实验过程中选择了逐步替代的方式,先引入笺注字声、比较统计这样没有争议的部分,完整的词调全谱、多样化的统计方案、面向填词爱好者的前端设计是未来追求的方向。

 

注释:

[1]杜晓勤:《中国古典诗歌声律分析系统的研发过程和学术价值》,《石河子大学学报(哲学社会科学版)》2016年第4期。

 

[2]李飞跃:《唐诗格律的统计分析及问题》,《文学遗产》2022年第5期。

 

[3]诸雨辰、胡韧奋:《清人拗救说再审视——以〈全唐诗〉15290首律诗为样本》,《中国诗歌研究》2019年第1期。

 

[4]朱惠国:《论辛弃疾二十四首〈临江仙〉的体式及其词谱学意义》,《文艺理论研究》2017年第4期。

 

(本文系国家社科基金重大项目“明清词谱研究与《词律》《钦定词谱》修订”18ZDA253)阶段性成果。