机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理 (Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding) 之间存在着密不可分的关系。
一、基于规则的机器翻译(RBMT) 机译系统是随着语料库语言学的兴起而发展起来的,世界上绝大多数机译系统都采用以规则为基础的策略,一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说,所有机译系统的处理过程都包括以下步骤:对源语言的分析或理解,在语言的某一平面进行转换,按目标语言结构规则生成目标语言。技术差别主要体现在转换平面上。
1、语法型机译系统 研究重点是词法和句法,以上下文无关文法为代表,早期系统大多数都属这一类型。语法型系统包括源文分析机构、源语言到目标语言的转换机构和目标语言生成机构3部分。源文分析机构对输入的源文加以分析,这一分析过程通常又可分为词法分析、语法分析和语义分析。通过上述分析可以得到源文的某种形式的内部表示。转换机构用于实现将相对独立于源文表层表达方式的内部表示转换为与目标语言相对应的内部表示。目标语言生成机构实现从目标语言内部表示到目标语言表层结构的转化。
2、语义型系统 研究重点是在机译过程中引入语义特征信息,以Burtop提出的语义文法和Charles Fillmore提出的格框架文法为代表。语义分析的各种理论和方法主要解决形式和逻辑的统一问题。利用系统中的语义切分规则,把输入的源文切分成若干个相关的语义元成分。再根据语义转化规则,如关键词匹配,找出各语义元成分所对应的语义内部表示。系统通过测试各语义元成分之间的关系,建立它们之间的逻辑关系,形成全文的语义表示。处理过程主要通过查语义词典的方法实现。语义表示形式一般为格框架,也可以是概念依存表示形式。最后,机译系统通过对中间语义表示形式的解释,形成相应的译文。
3、知识型系统 目标是给机器配上人类常识,以实现基于理解的翻译系统,以Tomita提出的知识型机译系统为代表。知识型机译系统利用庞大的语义知识库,把源文转化为中间语义表示,并利用专业知识和日常知识对其加以精练,最后把它转化为一种或多种译文输出。
4、智能型系统 目标是采用人工智能的最新成果,实现多路径动态选择以及知识库的自动重组技术,对不同句子实施在不同平面上的转换。这样就可以把语法、语义、常识几个平面连成一有机整体,既可继承传统系统优点,又能实现系统自增长的功能。这一类型的系统以中国科学院计算所开发的IMT/EC系统为代表。
二、基于统计学的机器翻译(SMT) 基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。
实际上, 用统计学方法解决机器翻译问题的想法并非是 20 世纪 90 年代的全新思想,1949 年W. Weaver 在那个机器翻译备忘录就已经提出使用这种方法,只是由于乔姆斯基 (N.Chomsky) 等人对计的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。
另外,限于当时的计算机速度,统计的价值也无从谈起。而现在,计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。
统计机器翻译方法的数学模型是由国际商业机器公司 (IBM) 的研究人员提出的。在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型,称为 IBM 模型 1 到 IBM 模型 5。这五种模型均源自信源-信道模型,采用最大似然法估计参数。由于当时(1993年)计算条件的限制,无法实现基于大规模数据训练。其后,由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视,该模型被用来替代IBM Model 2。在这时的研究中,统计模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。
在此文发表后6年,一批研究人员在约翰•霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。Franz Joseph Och 在随后对该软件进行了优化,加快训练速度。特别是IBM Model 3 到 5的训练。同时他提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++,直到现在,GIZA++还是绝大部分统计机器翻译系统的基石。针对大规模语料的训练,已有GIZA++的若干并行化版本存在。
基于词的统计机器翻译的性能却由于建模单元过小而受到限制。因此,许多研究者开始转向基于短语的翻译方法。Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高,在此后数年,该方法的性能远远领先于其他方法。一年后Och又修改最大熵方法的优化准则,直接针对客观评价标准进行优化,从而诞生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。
另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现,为翻译结果提供了自动评价的途径,从而避免了繁琐与昂贵的人工评价。最为重要的评价是BLEU评价指标。绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。
Moses 是目前维护较好的开源机器翻译软件,由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。
目前,Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google 采用的技术是先进的,但它还是经常闹出各种“翻译笑话” 。其原因在于:基于统计的方法需要大规模双语语料,翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。因此目前通用领域的机器翻译系统很少以统计方法为主。
三、基于实例的机器翻译(EBMT) 与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。
基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。
这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。
四、基于模板的机器翻译(TBMT) 基于模版的机器翻译通常使用翻译模版作为翻译知识表示。翻译模板是介于“翻译规则”和“翻译实例”之间的翻译知识表示形式,可以理解为带有变量部分的翻译实例或由常量和变量组成的翻译规则。由于翻译规则颗粒度较大,容易过分抽象,而翻译实例颗粒度较小,容易过分具体,翻译模板刚好可以结合这两种表示的优点,减少它们的不足之处。翻译模板可以被用在各种机器翻译系统中,尤其适合混合各种翻译知识表示的机器翻译系统。翻译模板具有表达直观,概括性适中的特点。
基于统计的机器翻译和基于实例的机器翻译使用翻译模板的方式不同。基于实例的机器翻译通过寻找从语料库中学习的翻译模板进行翻译,而基于统计的机器翻译引入了信源-信道模型以及概率论的知识,为机器翻译建立了概率模型,概率模型为翻译模板的冲突问题提供了解决方案。基于统计的机器翻译使用的翻译模板是带有概率信息的,这些信息从语料库中采用统计方法估算出来。
根据《一种汉英翻译模板提取方法》(杨二宝, 吕学强等著)中的定义,翻译模板的广义定义如下:
翻译模板是一种翻译规范,是所有符合某种翻译规则的翻译实例的集合,对于集合的每一个元素,它的源语部分必须按照特定的约束翻译成目标语。
本文中的翻译模板符合上述的广义定义,同时进一步细化翻译模板的定义如下: 分别用源语和目标语两种语言书写的包含常量(具体词语片段)和变量(可变词语片段)的字符串,而且这两个字符串之间存在对应互译关系。
一个翻译模板包括上述两个字符串及其变量之间的映射关系。
一个汉语-英语的简单翻译模板的例子如下:
这是X1 。 This is X1 .
在这个模板中,中文部分的每一个汉语常量词对应于英文部分相应位置的英语常量词,即“这”对应“This”,“是” 对应“is”。中文部分中X1和英文部分中X1为变量部分,且中文部分中X1的翻译是英文部分中的X1。实际上,翻译模板的对应关系可能比这种一一对应复杂得多。这种对应关系的复杂性是使用翻译模板的优点之一,因为我们不需要再在翻译过程中计算这些已经由翻译模板描述的对应关系,而只需要找出正确的翻译模板。因此,翻译模板的质量对机器翻译的质量有重要的影响。
上例的简单翻译模板已经能够描述泛化的多种常见句型,例如:
介绍人物:‘这是小张” 及其相应翻译“This is Xiao Zhang”; 指代物品“这是一个苹果” 及其相应翻译“This is an apple”; 说明 原因“这 是因 为他没 来” 及其 相应翻译“This is because he did not show up”等。
翻译模板尤其适用于具有固定格式的文本,例如描述特定领域知识的文本。一个中药专利领域的翻译模板如下:
一种具有X1 作用的X2 及其制备方法 A X2 having X1 effects, and its preparing method
这个模板能够覆盖待翻译句子的主干内容,描述复杂的双语之间的顺序关系,并且能够泛化到多种结构相似句子的翻译。例如“一种具有补血作用的药物及其制备方法”,“一种具有防止脱发作用的冲剂及其制备方法”等。由于这些句式在其领域中出现频繁,这样的翻译模板对提高翻译准确率非常有效。
翻译模板还可以带有附加匹配条件,提高模板匹配的准确率。例如限定X1必须是名词短语。
在翻译过程中,翻译模板可以被用来翻译未出现在语料库中的文本,只要这些文本具有与翻译模板常量部分相同的结构,以及满足变量部分匹配的条件。这个特性可以弥补基于语料库的翻译对语料库的依赖性。由于模板的可泛化的特点,翻译模板可以看成对双语文本的适当概括。使用翻译模板的机器翻译具有可扩展性,质量高的翻译模板常常能够准确描述句子骨干的翻译和长距离调序的信息。
具有相同源语言部分的翻译模板可以有不同的目标语言部分。这与自然语言的可改写性(Paraphrasing) 有关,即相同的句子可以有不同的表达方法,也可以有不同的翻译。所以翻译模板的源语言部分和目标语言部分存在多对多的对应关系。在机器翻译过程中,需要根据不同的上下文,从待翻译部分的候选模板中选择最合适的翻译模板。
按照抽取方式分,翻译模板可以分为人工书写翻译模板和自动抽取翻译模板两大类。人工书写翻译模板是由人编写的,获得成本高,但准确率和概括性好。自动抽取翻译模板是根据一些算法从语料中自动抽取的,抽取成本低,但准确率和概括性通常不如人工书写模板。
在机器翻译系统中使用翻译模板,相关的问题主要有如下几点:
1.抽取问题。由于翻译模板质量对机器翻译质量的影响,怎样从语料库中或其他语言资源中抽取准确描述语言现象并符合语法句法限制的翻译模板,是翻译模板研究必须面对的问题。
2.评价问题。在语料库较大时,从语料库中自动抽取出的翻译模板数量较多,质量不统一,可能影响机器翻译系统的速度和质量。对翻译模板做评价,过滤掉评价较低的翻译模板,保留评价较高的翻译模板能够降低机器翻译系统的资源使用,提高翻译质量。
3.应用问题。翻译句子时,需要寻找合适的翻译模板并应用,而且正确应用的方法与句子结构有关。在翻译过程中消除翻译模板冲突,寻找正确翻译模板的应用也是亟待解决的问题之一。
|