爱译网-人工智能翻译-翻译技术综述

AITRANS.NET--A HIGHWAY TO THE PALACE OF INTELLIGENCE AND WEALTH FOR TRANSLATORS AND READERS。让计算机模拟人的翻译思维，存储专业人士的高智力翻译成果，共建共享专业型智能化知识库，建立国际性智能翻译知识库标准，实现高质量的全自动机器翻译。


人工智能概论什么是人工智能翻译技术为什么用人工智能翻译技术人工智能翻译技术发展历程人工智能翻译技术难点特点人工智能翻译技术优势前景智能化知识库智能知识库介绍智能知识库作用智能知识库价值智能知识库共建共享 TM++智能技术 TM++智能化学习 TM++智能化翻译处理 TM++智能化翻译标识 TM++智能化翻译演示翻译技术综述基于规则的机器翻译基于统计的机器翻译基于实例的机器翻译基于模板的机器翻译计算机翻译记忆技术多引擎机器翻译技术计算机辅助翻译系统翻译实用技术术语提取重复率分析统计格式化翻译翻译知识交换标准翻译技术文章

	Home > 人工智能翻译 > 翻译技术综述 >计算机翻译记忆技术（TM）

    由于专业翻译领域所涉及的翻译资料数量巨大，而范围相对狭窄，集中于某个或某几个专业，如政治、经济、军事、航天、计算机、通讯等专业都有自己的专业翻译公司或部门。这就必然带来翻译资料的不同程度的重复。据统计，在不同行业和部门，这种资料的重复率达到20%～70%不等。这就意味着译者至少有20%以上的工作是无谓的重复劳动。翻译记忆技术就是从这里着手，首先致力于消除译者的重复劳动，从而提高工作效率。

　　翻译记忆的技术原理是用户利用已有的原文和译文，建立起一个或多个翻译记忆库，在翻译过程中，系统将自动搜索翻译记忆库中相同或相似的翻译资源（如句子、段落），给出参考译文，使用户避免无谓的重复劳动，只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动存储新的译文，变得越来越“聪明”，效率越来越高。几乎所有翻译记忆厂家都会告诉用户：有了翻译记忆库，永远不必对同一句话翻译两遍！

　　机器翻译界一位著名专家曾经说过，机器翻译做了人愿意做的工作，却没有做好；翻译记忆则做了人不愿做的工作！可不是吗，有谁愿意把时间花在重复劳动上，又有谁乐意让一台技术不成熟的机器来代替自己的工作呢？翻译记忆技术，实际起了辅助翻译的作用，也就是“计算机辅助翻译”，简称CAT（Computer Aided Translation）。和机器翻译相比，翻译记忆技术最大的优势便来自于数据库中存储的高质量的例句和完善的翻译流程控制系统。可以说，翻译记忆是目前惟一真正大规模实现产业化应用的翻译技术。

　　翻译记忆可以实现的功能大体如下:

　　1．翻译过程
　　翻译记忆产品会自动“记忆”住用户翻译的每一句翻译，在翻译新句子的时候，搜索翻译记忆库，对该句和记忆库中翻译单元进行对比和匹配，挑出原文最接近的翻译单元，给出参考译文。用户可以接受该译文，也可以做一些修改，修改后的新译文会自动存入记忆库，供以后使用。由于专业领域词汇和句式相对固定，当用户积累了多个有一定规模的记忆库后，遇到的重复句子会越来越多，翻译工作也变得越来越轻松。

　　翻译记忆产品还都支持网络共享记忆库功能。也就是说，当多人同时进行翻译时，可以通过局域网共享一个翻译记忆库，每个在线的翻译人员都可以实时地调用他人的工作成果。

　　2．自动建库
　　对于在使用翻译记忆产品前，已经积累了大量翻译资料的用户，翻译记忆产品会提供一个自动建库工具。该工具能自动分析和匹配原文和译文，以句子为单位将原文和译文一一对应。用户做完一些调整和校对之后，该工具会自动生成一个标准的翻译记忆库文件。用户所有的资料都可以通过该工具得到回收，从而高效、快捷地建立起翻译记忆库。这些库在不断的使用过程中，又会得到进一步补充和完善。

    一、翻译记忆（TM）概述

    在软件和网站本地化翻译的过程中，这些需要处理的数据文件内部经常有不少重复的内容，另外由于内容经常更新，而这种更新都是基于以前版本的内容进行的，只是增加了少量新内容或者对原来的内容进行了少量修正，所以很有必要充分利用以前版本已经翻译的内容，而不需要重新翻译。

    如何有效地重复利用这些已经翻译的内容呢？TM技术就是一种比较实用的手段，它采用片断（Segment）和翻译记忆库的方式提高翻译的效率，翻译数据库以“翻译单元(Translation unit)”为数据单位，将源语言的各个句子与目标语言的句子建立对应链接关系。翻译人员采用TM的辅助翻译工具翻译内容时，翻译工具不断将最新翻译的内容存储到翻译记忆库，对于要翻译的内容（如单词、短语、句子、段落），它先在翻译记忆库中搜索该内容是否有匹配的内容，并且自动提供最接近的译法，翻译人员可以将其方便地插入最匹配的翻译内容。

    具体而言，当翻译的内容100%匹配时，翻译记忆库中的相关翻译直接插入到翻译文字中；当匹配率小于100%而大于某一设定的阈值（模糊匹配）时，翻译记忆工具将相应的翻译内容提示给翻译人员，供翻译人员参考，他们选择最接近的翻译内容，然后经过简单的编辑处理即可完成翻译；当需要翻译的句子的匹配率低于设定的阈值时，按照新内容对待，不提供任何翻译提示，翻译人员需要手工翻译，这些翻译的新句子内容自动存储到翻译记忆中，方便将来搜索和重用。
    随着翻译内容的不断丰富，翻译记忆库的容量不断增加，在翻译过程中翻译人员与计算机达到有效的人机交互，翻译人员不必为相同内容的再次重新翻译而苦恼，只需要专注于需要翻译的新内容即可，而且翻译记忆的准确性也能保证相同内容翻译的一致性。让计算机“聪明”起来，使翻译人员“解放”出来，这是采用TM技术追求的目标。

    二、翻译记忆交换标准（TMX）

    翻译记忆(TM)是计算机辅助翻译(CAT)领域广泛采用的技术之一，借助TM技术可以显著提高翻译效率，保证内容一致性。由于采用TM技术开发的CAT软件种类繁多，翻译记忆内容的存储格式千差万别，为了便于翻译机构以及CAT工具之间的翻译记忆数据交换，一种称为TMX的开放标准已经成功应用到本地化和翻译行业。

    三、TMX的历史由来

    经济全球化的不断深入，软件/网站的本地化和全球化行业迅速发展，与此相呼应，各个采用翻译记忆技术开发的本地化工具和翻译记忆工具越来越多，但是这些工具是不同的厂家开发的，每家都有各自的文件数据存储格式。另外，对于一个本地化服务机构来说，经常为不同客户或相同客户的不同项目提供本地化翻译服务，由于不同客户和不同项目需要使用不同的本地化工具，经常由于各个本地化工具文件数据缺乏可以交换的标准格式，因此，很难重复使用以前积累的翻译记忆库资源。

    显然，翻译记忆库的标准格式亟待统一，制定翻译数据交换的标准已经成为本地化/全球化行业的当务之急，它可以使行业内部服务商、客户和工具开发商加强信息处理的统一性，实现业务共赢。正是市场需求的不断增长和翻译记忆技术的双重推动，才使得TMX标准呼之欲出。

    TMX标准的最初讨论需要追溯到1997 年 6 月，当年参加本地化行业标准协会(LISA)会议的与会者，包括本地化客户、工具提供商及本地化服务提供商召开了一个小型的会议，针对与日俱增的本地化工具的翻译记忆数据不兼容问题进行了讨论，会后这些成员形成了 LLSA 的一个专门团体，即 OSCAR(Open Standards for Container/Content Allowing Re-use)，而 TMX 规范正是 OSCAR 的一个最重要的成果。

    四、TMX功能提要

    TMX是由LISA所属的OSCAR组织开发的一种独立于各个厂商的开放式 XML 标准，用于存储和交换使用计算机辅助翻译（CAT）和本地化工具创建的译文记忆（TM）数据。TMX 的目标是减缓不同工具和/或翻译机构之间译文记忆数据的交换，在交换过程中减少或者避免重要数据的损失。

    TMX的目标是在保证翻译数据内容的前提下，为不同本地化和翻译工具制定中立的数据交换标准，现在市场上已经越来越多的本地化翻译工具提供对TMX标准的支持。

    据OSCAR组织的行业调查结果显示，翻译记忆资源已经成为本地化/全球化服务机构不断增加的战略性资产，在某种程度上已高达百万多美元的价值，在数以亿计的国际商务中发挥着重要作用。TMX标准提供了保值这些公司资产的功能，使它们不会随着市场和技术的更新而造成损失，而且不受特定计算机辅助翻译工具的束缚。

    五、TMX结构解读

    TMX文档以<tmx>为根元素，<tmx>元素包括 <header> 和 <body>两个元素。

    <header>包含文档的元数据，除了<header>属性，也能在 <note> 和 <prop> 元素中存放文档级别的信息，使用 <ude> 元素列出用户定义的任意字符。

    <body> 是翻译单（<tu>元素）的集合，用片断组织翻译单元，这种集合与组织顺序无关。文本片断包含在翻译单元（<tu> 元素）中，每个 <tu>元素包含一个或多个<tuv>元素的翻译单元变量，而这些翻译单元变量分别是同一个翻译单元不同语言的译文。每个<tuv>元素包含片断和给定语言相关的片断信息。在<seg>元素存放实际文本，所有从源文档继承的格式化信息都保存在内嵌元素（inline）中，<note> 和 <prop>存放与各个特定<tuv>有关的信息。

    片断的大小不受限定，通常是一个短语、一个句子或一个段落。大多数采用TMX标准的工具中，片断的大小都是以一个句子为单位。TMX个各个片断中，包含许多可选元素，存放改变字体、超链接等的片断格式信息。TMX还定义页脚和索引项等内容。

    片断包含很多标识内容元素： <bpt>, <ept>, <it> 和 <ph>，这些元素可以封装原始语言的内嵌代码。在<hi>元素中可以添加与内嵌代码无关的额外标识，用于封装内嵌代码的<sub>元素可以分隔嵌入的文本。

    六、TMX的实施级别

    根据实施TMX的不同要求，TMX包含一级和二级两种实施级别，分别支持普通文本和内容标记。

    在仅支持纯文本的第一级TMX中，每个片断元素 (<seg>) 中的数据都是不包括任何内容标记的纯文本。通常情况下，如果所要处理的数据不包含任何内嵌代码，则仅实施第一级就够了。在此种情况下，由于文本片段内的任何格式或其他信息都被丢失，因此仅可以获得模糊匹配的翻译内容。对于某些要求丰富格式的文档而言，这种处理就远远不够了。

    在支持内容标记的第二级TMX中，支持第二级的本地化工具允许文本片段内包含内嵌代码。在这一级别上，TMX通常会保留下列信息：此文本片段中包含内嵌代码；该内嵌代码在此文本片段内的位置信息；某些设计完美的工具往往还会记录内嵌代码的类型如粗体或者链接等。为了实现精确匹配，大多数本地化工具都提供对第二级的支持，这些支持TMX二级功能的本地化工具，使用TMX内容标识可以仅使用TMX文档重新生成原始文档的翻译版本。

    七、TMX的开发与认证

    TMX是由LISA所属的OSCAR团体实施，这个团体的主要职责是持续改进标准的特征内容，组织TMX认证和授权TMX标识，推广TMX在本地化和全球化行业的应用。

    TMX是不断更新的标准，OSCAR发布最新版本是1.4b，于2004年10月发布。与前版本相比，更新了TMX的数据格式内容，增添了一些新的特性。

    OSCAR 团体在发展 TMX 这一标准的同时，为了确保相关工具开发商的产品确实符合 TMX 规范，推出了相应的认证机制，不同本地化和翻译工具开发商开发的各种本地化工具只有通过了LISA指定的第三方实验室实施的TMX规格说明的认证，这些工具才能具有加注符合TMX的标识。

    通过TMX标准认证已经成为产品技术领先的一个标志，是获得更大市场和更多用户的必要条件。现在市场上已经有多种通过TMX认证的本地化和辅助翻译软件，为了实现翻译记忆数据资源的复用和交换，请优先选择通过TMX认证的本地化和辅助翻译工具软件。

360网站安全检测平台