哲学史

哲学史  >  分支学科  >  逻辑学  >  正文

【陈晓华】基于汉语短语结构歧义的蒙太格型语义排歧

一 引论

汉语中存在着大量的歧义现象。人们依靠大量丰富的生活知识和对母语的熟练掌握,在日常语言交际中能排除大量的歧义,误解的可能性很小。但是,计算机的语义和背景知识很少,遇到有歧义的句子时,误解或不解的可能性必然会大大增加。因此,这种情况需要分析汉语中歧义产生的各种原因,据以建立起某些有效的规则,以便消除歧义。歧义通常具体可分为词汇歧义、结构歧义、指称歧义和话语歧义等不同的种类,本文只考察汉语短语结构歧义,目的是使面向自然语言处理的歧义问题能进一步的清晰化。

看一个歧义格式的例子[1]Vp Ap Np,其中Np为名词短语,Vp为动词短语,Ap为形容词短语。这个歧义格式的两种组合方式:a.[Vp[Ap NP]];b.[[Vp Ap]Np]。分别对应着实例:A.[踢[新足球]];B.[[踢碎]热水瓶]。

对人理解而言,AB本身都不造成理解上的歧义。只是计算机在碰到这样的实例时,要判断到底该按哪一种方式进行结构定界,即对计算机而言,A可能被分析为a,也可能被分析为bB也是如此,从而造成计算机分析时的歧义问题。

独树一帜的蒙太格语法贯彻的是句法与语义的对应原则:对每一个句法规则而言,都存在一个语义规则与它相对应,句法生成一次,语义便生成一次。蒙太格认为:语言表达式的意义是由其直接成分的意义所决定,语义的组合就必然从较小的甚至最小的意义单位开始,逐层逐级由小到大直至生成语句,所以意义的组合正好遵循句法的规则。蒙太格把自然语言的表达式翻译成逻辑语言表达式,再运用逻辑语言的语义学对它进行解释。这种解释的对象虽然是逻辑表达式,但逻辑表达式表达的是自然语言表达式,故解释也间接地解释了自然语言表达式意义。运用蒙太格语法分析自然语言,可以发现句子可以从不同的途径去生成组合,从而获得不同的语义解释。这种方法大致可用下图[2]表示:

 

 从上图,我们可以看詹卫东提出的歧义格式有着殊途同归的地方。上图中的语句1、语句2、语句3分别一一对应着歧义格式中的真歧义、准歧义和伪歧义[1]。正是有了这一同构,我们可以运用蒙太格语法成功地对詹卫东提出的歧义格式进行消歧。

在对蒙太格语法的应用研究基础上,陆汝占教授提出内涵模型论的语义分析,句子分析的流程为:语句→切分→标注→句法分析→句法树→同构的语义树→逻辑公式→模型解释[3]。根据内涵模型的句子分析流程,我们可以从句法分析开始着手,句法分析是依据某种句法分析理论提供的规则分析自然语言的句子,得到这个句子的句法树。要进行这种句法分析,必须要知道每个词的词性(即该词所属的词类)。但仅仅依靠词性,会产生大量的歧义结构。这时,我们可以利用《现代汉语语法信息词典》[4]进行约束排歧,排除不能满足制约条件的结构,这样把一部分有歧义格式的句子进行成功消歧;再利用《现代汉语语义词典》[5]的语义资源通过语义解释进行消歧。

二 基本框架

基于前人消歧的研究结果,我们尝试提出利用蒙太格语法针对汉语短语结构歧义的排歧模型的基本框架,具体步骤表示如下:

(一)语法分析

根据词典项目及句法生成规则,分析输入句子,得到表示句子结构的树形图。

词典项目就是《现代汉语语法信息词典》,这部词典除了将词语作为登录项外,还指明了每个词语所属的词类。

句法生成规则采用上下文无关语法,这些规则是按照词组本位语法的理论体系来组织,这些规则应基本覆盖汉语短语结构的组合情况。nrmqvSSc分别代表名词,代词,数词,量词,动词,句子,子句。例:

(1)我选举他当班长。

(2)我认为他是班长。

(1)(2)的结构相似是明显的,从词性来看,它们都有同样的词类序列。根据上下文无关的语法规则,这样的词类序列可以产生多种句法树。仅靠一套上下文无关语法产生式规则,如不考虑其他任何约束条件,通过程序自动分析,可以得到各种可能的组合情况,其中包括合法的和不合法的,合法的有些有歧义,有些没有。

根据上下文无关的句法生成规则,r v r v n序列可得到了如下的树形图:

 

1 句(1)树型图

 

2 句(2)树型图

现在根据词典项目《现代汉语语法信息词典》及上下文无关句法生成规则,分析输入句子。从《现代汉语语法信息词典》中查“选举”,这个动词可以后接兼语结构,(1)的结构可以优选为图1中的树。从语法词典中查“认为”,这个动词只能带谓词性宾语,且这个谓词性宾语是一个子句,(2)的结构只可能是图2中的树。

(二)内涵逻辑表达式的生成

通过句法分析表示句子结构,根据翻译规则[6](有一条句法规则,必须也有一条语义规则与其对应)依次逐层翻译,通过翻译,句法树可以得到同构的语义树,最终获得该句的内涵逻辑表达式。

下面给出部分规则:

A.句法规则的对应关系

 

B.词汇的对应规则

让逻辑语言的词汇跟自然语言的词汇一一对应起来是不符合实际的,因为人类的自然语言是一个很大的词库。一般的做法就是直接借用自然语言中词汇。本文采用的是小写字母并在词的后面加一撇,如zhong guo'

举例来说,句子“我认为他是班长”可按以下的方式生成和翻译:

 

为了节省篇幅,我们自上而下进行翻译,并且把词的插入和翻译都看成是一次完成的。

(三)语义分析

根据所获得的内涵逻辑表达式,利用语义资源库,从而得出该句的在模型中的成真条件,即得到了该句的语义解释。解释模型的建立,我们要依托现代汉语语义资源库。我们采用的语义资源库是《现代汉语语义词典》。它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制。例如“维修图书馆的空调”和“装修图书馆的工人”,两者具有相同的词序列,但是句法结构却分别是“(维修(图书馆的空调))”和“((装修图书馆)的工人)”。也就是说,单纯依靠语法来排歧对处理这类歧义结构是无能为力的,这类歧义格式的解决需要语义知识:“空调”不能做“维修”的逻辑主语,“工人”不能做“装修”的宾语。通过语义知识对这些词类的搭配关系的描述,计算机从而可以确定最终的分析结构。

下面让我们来用模型来对上述例句“我认为他是班长”进行语义计算。

 

三 排歧实例

为了对上述蒙太格型语义排歧又进一步的了解,我们在下面给出一个简单的排歧实例。在这里给出排歧例子中要应用到的部分词典、部分句法规则和相应的翻译规则以及解释模型。

A.词典项目:

 

 

这里需要说明的是,词汇插入和翻译是被看作一次完成。

下面我们对一个歧义格式进行歧义消解。

 

相应的实例分别为:a'.他看我的书。

b'.他给我的书。

在这里给出实例a'句的两种结构的模型解释,从而计算机确定那个结构是正确的句法结构。为节省篇幅,句子的生成和翻译过程就不给出,这里就直接给出其生成和翻译的结果,直接对其进行语义解释。通过模型解释,从而确定句法结构a是实例a'的合法结构。

【参考文献】

[1] 詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,广西科学技术出版社,2000.

[2] 朱水林.逻辑语义学研究[M].上海:上海教育出版社, 1992.

[3] 许嘉璐.现状和设想——试论中文信息处理与现代汉语研究[C)//易绵竹,南振兴.计算语言学.上海:上海外语教育出版社,2005.46-68.

[4] 俞士汶,朱学锋,王惠,张芸芸.现代汉语语法信息词典详解[Z].北京:清华大学出版社,2003.

[5] 俞士汶,詹卫东,王惠.现代汉语语义词典规格说明书[J]. Journal of Chinese Language and Computing,13(2): 159-176.

[6] 邹崇理.逻辑、语言和蒙太格语法[M].北京:社会科学文献出版社,1995.

(原载《湘潭师范学院学报》20074期。录入编辑:乾乾)