用计算机模拟研究语言演化

2013年03月04日 《中国社会科学报》总第422期 作者:龚涛 帅兰

【核心提示】为达到全面认识语言演化的终极目标,未来的演化语言学发展应建立在语言学与计算机模拟及其他学科合作的基础上。

编者按
  传统语言学侧重内省式和经验型的研究。随着学科发展和进步,在技术取向上,语言研究逐渐引入实证方法。近年来,以各种现代化仪器和设备襄助语言研究的实验方法越来越受到关注,并取得突出成果。本版将陆续刊登相关文章,以飨读者。
  为什么只有人类具有如此复杂的语言?语言是如何变成现在这个样子的?这些问题属于研究语言涌现、变化和消亡的演化语言学范畴。随着自然语言语料的丰富和相关学科的技术突破,从不同学科、不同角度研究语言及其演化已成为可能。在此背景下,计算机模拟被逐步应用到演化语言学中。
计算机模拟可用于语言演化研究
  计算机模拟可追溯到20世纪60年代“计算机之父”John von Neumann的自复制模型,用计算机模拟研究语言演化则始于20世纪80年代James R. Hurford的索绪尔词汇演化模型。简单来说,计算机模拟是建立包含所研究理论的计算机模型,比较模拟结果与真实结果以验证和改进这些理论,并通过建立包含改进理论的模型进一步评价这些理论,直至得出能够产生预期结果的理论。计算机模拟旨在探讨语言处理机制与其他认知能力的关系,特定因素对语言演化的影响,以及语言复杂多样性背后的决定因素。


如何利用计算机模拟研究语言演化
  一是设定研究问题。所有模拟都为具体问题而开发。例如,王士元和柯津云(2001)的词汇演化模型(以下简称“词汇模型”)研究个体通过反复交流能否发展出相同的词汇;龚涛(2011)的词汇—句法共同演化模型(以下简称“句法模型”)讨论一些普遍的、非语言特有的机制能否帮助个体习得简单的词汇和句法。
  二是定义人工语言、语言知识和处理机制。最简单的定义人工语言的方法是把它视为意思—话语对。在词汇模型中,意思—话语对匹配独立的意思和话语;在句法模型中,意思—话语对中的意思由词汇成分复合而成(如“狼追羊”),话语由不同话语符号复合而成。语言知识是帮助个体记录意思—话语对的规则。在词汇模型中,语言知识以矩阵形式记录,其行和列分别对应于意思和话语,矩阵中数值表示不同的意思和言语相匹配的概率,个体在交流中根据这些概率选择意思—话语对;在句法模型中,词汇规则记录符号与意思成分的匹配(如意思“狼”匹配符号/ab/),词序规则记录词汇的言语部分在句中的前后顺序,句法范畴则把具有相同语义角色(如谓词、施动者或受动者)的词汇和有关词序归纳到一起,并赋予其相应的句法角色(如谓语、主语或宾语)。基于这些规则,个体可组合符号表达复合意思,也可把听到的符号串解释为复合意思。语言处理机制是帮助个体习得和应用其语言知识的能力和手段。在词汇模型中,个体能够根据交流成功与否增加或减少其矩阵中意思—话语对的概率。在句法模型中,个体可利用模式提取能力将听到的意思—话语对中相同的意思和符号成分提取出来作为词汇,并把遵循相同次序的、具有相同句法角色的词汇归到同一句法范畴。这些能力帮助个体逐步建立一套词汇、词序和句法范畴以表达和理解不同的复合意思。
  除了意思—话语对,很多语言竞争模型把不同语言直接视为变量,不考虑个体如何处理语言,而关心社会—文化因素对个体如何选择语言的影响。除了规则,人工神经网络、自组织地图等也可用于模拟语言知识和处理机制。
  三是实现语言交流过程。交流通常涉及两个个体(说者和听者),包含产生言语、理解言语以及获得和更新语言知识。涉及社会—文化因素的模型还会模拟影响个体间交流的因素。例如,Simon Kirby的重复学习模型模拟了一串个体,其中每个个体代表一代语言使用者。个体通过理解串中前一个体产生的意思—话语对来习得语言知识,并根据这些知识产生意思—言语对给下一个体学习。
  四是记录并分析模拟结果。结合研究问题,我们需要定义一些反映模型表现的指标以评价所研究的理论。词汇模型通过定义矩阵相似度(不同个体矩阵中数值的相似性)和交流成功率(听者能够正确理解说者意思的交流占所有交流的比率)来评价个体间意思—话语对是否相近及它们能否互相理解。句法模型通过定义交流成功率来记录个体间能否发展出相似的词汇和句法来交流复合意思。分析指标在多次模拟中的平均值随模拟初始条件或其他设定的改变可揭示模拟结果主要由哪些因素所导致,分析指标值随模拟进程的变化还可揭示语言演化的动态特性。


计算机模拟的优势和局限
  与用文字描述的理论不同,计算机程序的理论必须清晰完整,相关假设和初始条件必须明确。否则,程序可能无法运行或不能产生所包含理论的经验预测。同时,计算机模拟能有效克服已有手段的难点和局限。例如,通过模拟特定语言结构和学习机制并剔除其他结构和机制,计算机模拟能直接验证特定机制对习得特定语言结构的作用,从而克服心理学实验无法完全剔除无关因素的难点;通过引入情境和交流限制,计算机模拟还可模拟各种习得与交流的环境与模式,从而辅助实证研究。此外,由于缺乏化石和语料等直接记录,语言学已有方法只能回溯到一定历史阶段。对此,计算机模拟提供了一些突破口。通过给人工个体配置在其他物种中发现的或者人类在语言行为中表现的能力,计算机模拟可探讨这些能力能否导致某些语言特性,语言处理机制与人类和其他动物的认知能力有何联系,语言涌现有哪些认知和处理能力上的先决条件。通过系统设定条件,计算机模拟还可重现早期人类的交流环境。
  虽然有这些优势,可是计算机模拟也有局限。很多模型会对所关心的语言特性进行简化,同时,一个模型只关注某个具体问题而忽略其他方面。语言是一个复杂适应性系统,一次性处理所有相关因素和功能是不现实的,因而简化和专一不可避免。但是,过分简化可能令某些因素失效。例如,某些语言特性(如句法)只能出现在具有某种复杂度的交流系统中(如语言所描述的意思有一定的结构,无法仅用词汇表达),过分简化模型会导致这些特性无法出现。过分专一也会令模拟结果失去现实意义,因为仅包含某些因素的理想情况在现实中并不常见。所以,在实际中,我们需要根据具体问题进行适度的简化和专一,以达到研究目的。
  为达到全面认识语言演化的终极目标,未来的演化语言学发展应建立在语言学与计算机模拟及其他学科合作的基础上。希望更多有计算机背景的学者能够加入演化语言学的研究队伍,中国的演化语言学也将更加关注计算机模拟及其他学科对语言演化研究的贡献。
  (作者单位:香港大学语言学系;美国约翰·霍普金斯大学电机与计算工程学系)

http://csstoday.net/Item/51986.aspx