爱译网logo 智能,研发,应用,推广  
           
会员名称: 会员密码: 注册
中文版
英文版
www.aitrans.net
AITRANS.NET--A HIGHWAY TO THE PALACE OF INTELLIGENCE AND WEALTH FOR TRANSLATORS AND READERS。让计算机模拟人的翻译思维,存储专业人士的高智力翻译成果,共建共享专业型智能化知识库,建立国际性智能翻译知识库标准,实现高质量的全自动机器翻译。
 
关于爱译网
客户服务
翻译论坛
下载专区
Home > 人工智能翻译 > 翻译技术综述 >基于模板的机器翻译(TBMT)
 

    基于模板的机器翻译(TBMT):

    基于模版的机器翻译通常使用翻译模版作为翻译知识表示。翻译模板是介于“翻译规则”和“翻译实例”之间的翻译知识表示形式,可以理解为带有变量部分的翻译实例或由常量和变量组成的翻译规则。由于翻译规则颗粒度较大,容易过分抽象,而翻译实例颗粒度较小,容易过分具体,翻译模板刚好可以结合这两种表示的优点,减少它们的不足之处。翻译模板可以被用在各种机器翻译系统中,尤其适合混合各种翻译知识表示的机器翻译系统。翻译模板具有表达直观,概括性适中的特点。

    基于统计的机器翻译和基于实例的机器翻译使用翻译模板的方式不同。基于实例的机器翻译通过寻找从语料库中学习的翻译模板进行翻译,而基于统计的机器翻译引入了信源-信道模型以及概率论的知识,为机器翻译建立了概率模型,概率模型为翻译模板的冲突问题提供了解决方案。基于统计的机器翻译使用的翻译模板是带有概率信息的,这些信息从语料库中采用统计方法估算来。

    根据《一种汉英翻译模板提取方法》(杨二宝, 吕学强等著)中的定义,翻译模板的广义定义如下:

    翻译模板是一种翻译规范,是所有符合某种翻译规则的翻译实例的集合,对于集合的每一个元素,它的源语部分必须按照特定的约束翻译成目标语。

    本文中的翻译模板符合上述的广义定义,同时进一步细化翻译模板的定义如下:

    分别用源语和目标语两种语言书写的包含常量(具体词语片段)和变量(可变词语片段)的字符串,而且这两个字符串之间存在对应互译关系。

    一个翻译模板包括上述两个字符串及其变量之间的映射关系。

    一个汉语-英语的简单翻译模板的例子如下:
    这是X1 。
    This is X1 .

    在这个模板中,中文部分的每一个汉语常量词对应于英文部分相应位置的英语常量词,即“这”对应“This”,“是” 对应“is”。中文部分中X1和英文部分中X1为变量部分,且中文部分中X1的翻译是英文部分中的X1。实际上,翻译模板的对应关系可能比这种一一对应复杂得多。这种对应关系的复杂性是使用翻译模板的优点之一,因为我们不需要再在翻译过程中计算这些已经由翻译模板描述的对应关系,而只需要找出正确的翻译模板。因此,翻译模板的质量对机器翻译的质量有重要的影响。

    上例的简单翻译模板已经能够描述泛化的多种常见句型,例如:
    介绍人物:‘这是小张” 及其相应翻译“This is Xiao Zhang”;
    指代物品“这是一个苹果” 及其相应翻译“This is an apple”;
    说明原因“这是因为他没来” 及其相应翻译“This is because he did not show up”等。

    翻译模板尤其适用于具有固定格式的文本,例如描述特定领域知识的文本。一个中药专利领域的翻译模板如下:
    一种具有X1 作用的X2 及其制备方法
    A X2 having X1 effects, and its preparing method

    这个模板能够覆盖待翻译句子的主干内容,描述复杂的双语之间的顺序关系,并且能够泛化到多种结构相似句子的翻译。例如“一种具有补血作用的药物及其制备方法”,“一种具有防止脱发作用的冲剂及其制备方法”等。由于这些句式在其领域中出现频繁,这样的翻译模板对提高翻译准确率非常有效。

    翻译模板还可以带有附加匹配条件,提高模板匹配的准确率。例如限定X1必须是名词短语。

    在翻译过程中,翻译模板可以被用来翻译未出现在语料库中的文本,只要这些文本具有与翻译模板常量部分相同的结构,以及满足变量部分匹配的条件。这个特性可以弥补基于语料库的翻译对语料库的依赖性。由于模板的可泛化的特点,翻译模板可以看成对双语文本的适当概括。使用翻译模板的机器翻译具有可扩展性,质量高的翻译模板常常能够准确描述句子骨干的翻译和长距离调序的信息。

    具有相同源语言部分的翻译模板可以有不同的目标语言部分。这与自然语言的可改写性(Paraphrasing) 有关,即相同的句子可以有不同的表达方法,也可以有不同的翻译。所以翻译模板的源语言部分和目标语言部分存在多对多的对应关系。在机器翻译过程中,需要根据不同的上下文,从待翻译部分的候选模板中选择最合适的翻译模板。

    按照抽取方式分,翻译模板可以分为人工书写翻译模板和自动抽取翻译模板两大类。人工书写翻译模板是由人编写的,获得成本高,但准确率和概括性好。自动抽取翻译模板是根据一些算法从语料中自动抽取的,抽取成本低,但准确率和概括性通常不如人工书写模板。

    在机器翻译系统中使用翻译模板,相关的问题主要有如下几点:

    1.抽取问题。由于翻译模板质量对机器翻译质量的影响,怎样从语料库中或其他语言资源中抽取准确描述语言现象并符合语法句法限制的翻译模板,是翻译模板研究必须面对的问题。

    2.评价问题。在语料库较大时,从语料库中自动抽取出的翻译模板数量较多,质量不统一,可能影响机器翻译系统的速度和质量。对翻译模板做评价,过滤掉评价较低的翻译模板,保留评价较高的翻译模板能够降低机器翻译系统的资源使用,提高翻译质量。

    3.应用问题。翻译句子时,需要寻找合适的翻译模板并应用,而且正确应用的方法与句子结构有关。在翻译过程中消除翻译模板冲突,寻找正确翻译模板的应用也是亟待解决的问题之一。

COPYRIGHT 2010 AITRANS, ALL RIGHTS RESERVED.

热线:010-82893875 邮箱:info@aitrans.net

备案号:京ICP备18027361号-2

 
 
360网站安全检测平台