当前位置：首页> 机器翻译研究综述(DOC)-

机器翻译研究综述(DOC)-

时间：下载该word文档

机器翻译综述
1. 引言
1.1 机器翻译的历史
现代机器翻译的研究应该是从20世纪50年代开始，但是早在这以前很多人已经提出了相应的想法，甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。
在1946年，美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时，英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时，就提出了利用计算机实现语言的自动翻译的想法。在1949年，韦弗发表了一份名为《翻译》的备忘录，正式提出了机器翻译问题。他提出了两个主要观点：
第一，他认为翻译类似于解读密码的过程。第二，他认为原文与译文“说的是同样的事情”，因此，当把语言A翻译为语言B时，就意味着从语言A出发，经过某一“通用语言”或“中间语言”，可以假定是全人类共同的。
在这一段时间由于学者的热心倡导，实业界的大力支持，美国的机器翻译研究一时兴盛起来。
1964年，美国科学院成立语言自动处理咨询委员会，调查机器翻译的研究情况，给出了“在目前给机器翻译以大力支持还没有多少理由”的结论，随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期，随后机器翻译的发展又迎来了繁荣期
1.2 机器翻译的主要内容
经过50多年的发展，在机器翻译领域中出现了很多的研究方法，总结如下：  直接翻译方法  句法转换方法  中间语言方法  基于规则的方法  基于语料库的方法
➢ 基于实例的方法（含模板、翻译记忆方法） ➢ 基于统计的方法在当前的研究中，更多的是基于统计的方法进行的，因为基于统计的方法可以充分的利用计算机的计算能力，并且并不需要过多的语言学知识作为支撑，可以让更多的计算机科学家投入到实用系统的研究中，极大的促进了统计机器翻译的发展。
下面对各个方法逐一的进行介绍。

2. 机器翻译主要方法
2.1 直接翻译方法
所谓直接翻译方法就是从句子的表层出发，将单词、词组、短语甚至是句子直接置换成目标语言译文，有时进行一些简单的词序调整实现翻译，并不进行深层次的句法和语义分析。直接翻译方法也是早期翻译系统常用的方法。在1954年，美国乔治敦大学用IBM计算机进行了首次机器翻译的实验后来IBM提出的统计机器翻译模型也可以认为是采用了这一思想。
这种方法只能是作为研究初期的一种方法，因为方法本身就是一个很成熟的方法，举例如下：
How are you？直接翻译结果：怎么是你
How old are you？直接翻译结果：怎么老是你
从这个翻译结果就可以看到直接翻译方法的结果是非常不好的，直接翻译方法仅能满足特定译文生成的需要，比如说只在语言特点较为相似的语言之间的翻译效果较好。对于像英汉语言这样差异较大的语言的翻译就不能使用直接翻译的方法。鉴于直接翻译方法在机器翻译研究中的局限性，现如今几乎没有人继续在这个方法上进行进一步的研究，所以该方法只是在50、60年代作为机器翻译的起始研究方法存在。
2.2 句法转换方法
1957年，美国学者V. Yingve在Framework for Syntactic（句法翻译框架）中提出了句法转换方法。
整个过程分为“分析”、“转换”、“生成”三个阶段，分别如下：
分析：将将源语言句子转换成源语言申城结构；在分析的过程中，有相关分析和独立分析两类。所谓相关分析就是在分析时需要考虑目标语言的特点。而独立分析就是分析过程与目标语言无关。
转换：将源语言深层结构转换为目标语言的深层结构；
生成阶段：由目标语言深层结构生成目标语言句子；生成过程也有两类：相关生成和独立生成。即相关生成是在生成时需要考虑语言的特点，而独立生成的生成过程与源语言无关。
理想的转换方法应该做到独立分析和独立生成，这样在进行多语言机器翻译的时候可以大大的减少分析和生成的工作量。但独立分析和独立生成同样也会造成翻译质量的下降。
转换方法的优点是可以较好的保持原文结构，产生的译文结构与原文结构关系密切，尤其对于语言现象已知或句法结构规范的源语言句子具有较强的处理能力和较好的翻译效果。主要不足就是：分析规则由人工编写，工作量大，规则的主观性强，规则的一致性难以保障，不利于系统扩充[1]。

2.3 中间语言方法
中间语言翻译方法首先将源语言句子分析成一种与具体语言无关的通用语言或中间语言，然后再由中间语言得到目标语言。整个翻译过程分为“分析”和“生成”两个部分。中间语言的优点在于进行多语种翻译的时候，只需要对每种语言分别开发一个分析模块和一个生成模块，模块总数为2*n，相比之下，如果采用转换方法就需要对每两种语言之间都开发一个转换模块，模块总数为n*(n-1。
虽然基于中间语言的机器翻译方法能够减少系统实现的工作量，但是如何定义和设计中间语言的表达式并不是一件容易的事情，中间语言在语义表达的准确性、完整性、鲁棒性和领域的可移植性等诸多方面都存在问题[1]。
在基于中间语言机器翻译的基础之上，文献[2]采用统计的方法实现源语言到中间语言的转换和中间语言到目标语言的转换，用以实现一个语音到语音的翻译系统。这种方法从思想方法上已经属于基于统计的范畴，但在技术方法上依然属于中间语言的方法。现在纯粹基于中间语言的方法现在也很少能够引起研究人员的关注。
2.4 基于规则的机器翻译方法
自从乔姆斯基的转换生成语法提出后，基于规则的方法一直就是机器翻译研究的主流，乔姆斯基认为一种语言无限的句子可以由有限的规则推导出来[3]。后来法国著名机器翻译专家沃古瓦（B. Vauquois）教授把基于语言规则的机器翻译方法的翻译过程总结为如下图形，这个图形又被称为“机器翻译金字塔”[4]：

图1 机器翻译金字塔
基于规则的方法的优点在于直观，能够表达精确地语言学家的知识，而且规则的颗粒度有很强的可伸缩性：（1）大颗粒度的规则具有很强的概括能力；（2）小颗粒度的规则具有精细的描述能力。能够处理复杂的结构和进行深层次的理解，系统适应性较强，不依赖于具体的训练语料。基于规则的方法同样也存在问
题：（1）规则是由人制定的，主观因素重；（2）规则的覆盖性较差，特别是细粒度的规则很难总结的比较全面；（3）没有很好的办法解决规则之间的冲突。文献[3]中提到复杂特征集和合一运算[5]的提出使用更细粒度、更加准确的知识表示形式来描述规则。同时针对确定性规则降低了系统的鲁棒性的缺点，概率上下文无关文法[6]从全局最优的角度考虑，产生最优的翻译结果[3]。随着这些方法的引入，传统的基于规则的机器翻译方法逐步向以规则为基础、语料库方法为辅助的更高层次的机器翻译方法的研究。
2.5 基于语料库的方法
在基于规则的机器翻译方法的研究面临一定的问题的情况下，很多学者就开始研究是否可以不依赖于人工制定的规则来进行机器翻译，即从大量语料中学习翻译知识。基于语料库的翻译方法拥有无需人工编写规则、从语料库中学习得到的知识比较客观、从语料库中学习到的知识的覆盖性比较好的优点。但同时，基于语料库的翻译方法同样也存在一定的问题：（1）翻译系统性能依赖于语料库；（2）数据稀疏问题严重；（3）语料库中不大容易得到大颗粒度的高概括性知识。所以说在机器翻译的众多方法中没有哪种方法可以说自己是没有缺点的，只是不同的方法在不同的应用领域中有各自的优点。
目前基于语料库的方法主要有基于实例的机器翻译和基于统计的机器翻译两种方法[7]。
2.5.1 基于实例的机器翻译方法
日本学者长尾真（Makoto Nagao）提出了基于实例的机器翻译方法[8]。
在基于实例的机器翻译系统中，系统的知识来源是双语对照的翻译实例库，实例苦衷主要有两个字段，一个字段保存源语言句子，另一个句子保存与之对应的译文。
每输入一个源语言句子时，系统把这个句子同实例库中的源语言句子进行比较，找出与这个句子最为相似的句子，并模拟与这个句子相对应的译文，最后输出译文。
该方法的优点是：
（1）直接使用对齐的语料库作为知识表现形式，知识库的扩充非常简单；（2）不需要进行深层次的语言分析，也可以产生高质量的译文。
缺点是覆盖率低，实用的翻译系统需要的实例库的规模极大（百万句对以上）。
2.5.2 基于记忆的机器翻译方法
在基于实例方法的基础上，日本学者佐藤聡（Satoshi Sato）提出了一个衍生的方法——基于记忆的翻译方法[9]。
基于翻译的方法是基于实例方法的特例，同样都需要建立一个实例库，但是作为衍生方法，同样有其独特之处。该方法的基本思想为：把已经翻译过的句子保存
起来；在翻译一个新句子的时候，直接到语料库中查找，如果发现相同的句子，直接输出译文，否则交给人去翻译，但可以通过系统提供一个相似的句子作为参考译文。该方法的优缺点主要有：  翻译质量有保证；
 随着使用时间的增长，匹配成功率逐步提高；
 特别适用于重复率高的文本翻译，例如公司的产品说明书；  与语言无关，适用于各种语言对；
 缺点是在刚开始使用时匹配成功率不高，无法给出较为合理的参考译文。
2.5.3 基于统计的机器翻译方法
如果说在机器翻译研究的初期，基于规则的方法是主流，吸引了大部分的研究人员的注意力的话，那现在就是基于统计方法大显身手的时候，目前基于规则的方法的研究依然在进行，只不过，更多的是作为统计机器翻译方法的补充方法。
其基本思想是为翻译过程建立模型，把翻译理解为搜索问题，即从所有可能的译文中选择概率最大的译文，而同为基于语料库方法的实例翻译方法则无需建立统计模型。在基于实例的翻译方法中，语言知识表现为实例本身，而统计机器翻译汇总，翻译知识表现为模型参数[7]。
基于统计方法的优点：
1 无需人工编写规则，利用语料库直接训练得到机器翻译系统； 2 系统开发周期短；
3 只要有足够多的语料，很容易适应新的领域或者语种。缺点是：
1 时空开销大，进行模型参数的计算需要消耗较多的计算资源；
2
数据稀疏问题严重，当语料缺乏或语料的覆盖面不够全的时候就容易出现无法统计出需要的语言知识的情况；
3
对语料库依赖严重，所有的工作都建立在语料库的基础上，好的语料库可以产生较好的翻译结果，反之就会影响到翻译质量。 4 有时需要规则的方法进行辅助
基于统计的机器翻译方法主要有以下3种：