联手自然语言处理专委会:“机器翻译”术语发布 | CCF术语快线
本期发布术语热词:机器翻译(Machine Translation)。
开篇导语: 本期发布术语热词:机器翻译(Machine Translation)。语言能力是人类智能的一个重要体现,而一般认为,翻译的成功进行需要具备对源语言进行理解和利用目标语言进行表达的能力,因而机器翻译被视为是语言智能的一项重要研究问题。 机器翻译(Machine Translation) 作者:黄书剑(南京大学) InfoBox: 中文名:机器翻译 外文名:Machine Translation 简写:MT 学科:自然语言处理、机器学习 实质:利用计算机自动地将一种自然语言(称为源语言)转换为另一种自然语言(称为目标语言)的过程。 词条定义: 机器翻译是指利用计算机自动地将一种自然语言(称为源语言)转换为另一种自然语言(称为目标语言)的过程。与传统人工翻译相比,机器翻译的翻译过程一般由机器完全自动完成,而不需要语言专家或翻译用户的参与,这使得翻译的可用性大大提升;同时,借助计算机的并行计算能力,机器翻译可以在短时间内完成大规模的翻译任务,翻译效率具有明显优势。 语言能力是人类智能的一个重要体现,而一般认为,翻译的成功进行需要具备对源语言进行理解和利用目标语言进行表达的能力,因而机器翻译被视为是语言智能的一项重要研究问题。 机器翻译的起源和发展: 利用机器进行翻译的想法可以追溯到20世纪30年代甚至更早[1],在这些188体育投注:自动翻译的想法中,“机器”一词泛指各种可能的机械装备,因而没有相对系统的翻译方法研究。随着世界上第一台电子计算机ENIAC的问世(1946年),机器翻译方法与电子计算机这样的通用计算设备的关联才逐渐清晰起来。1949年,Warren Weaver在一篇名为“Translation”的备忘录[2]中正式提出了机器翻译这一概念并设想了一系列可能的方法。现在讨论的机器翻译研究,大多是指利用通用计算设备进行计算的方法和技术。 早期机器翻译研究致力于将翻译知识人工总结为规则的形式,再交由计算机进行规则的应用[3]。但人工总结的规则往往不能应对自然语言复杂多变的情况。1984年,长尾真教授提出了一种基于实例的机器翻译范式[4],通过匹配已有句子的翻译结果并进行少量的更新来生成新的翻译结果。这标志着数据在机器翻译系统中的作用开始超越专家人工拟定的知识。 20世纪90年代,以IBM模型为代表的一系列统计模型[5-9]进一步发挥了数据在翻译过程中的作用。这些模型从双语平行数据中自动挖掘词、短语或者句法结构的翻译对应关系,并以此作为基本单元尝试组合出任意给定句子的翻译结果。为了减少单元组合过程中的开销,一系列统计模型被用来对基本单元的翻译忠实度、流畅性等方面进行评估,组合这些模型帮助系统选择尽可能正确合理的翻译结果[10-11]。 21世纪初,深度学习的发展极大推动了机器翻译的发展[12-14],通过序列到序列的神经网络建模,翻译系统不再依赖从数据中挖掘的带有噪音的翻译对应关系,也不再进行基本单元的组合和评分,而是通过对一系列向量表示的数值运算完成整个翻译过程。上述简单的建模方式充分发挥了GPU等设备带来的计算能力上的飞跃,能够有效发掘数据中隐含的翻译相关的规律,从而获得了出色的翻译效果。2017年,Google的Vaswani等人提出的Transformer模型[16]综合利用注意力、自注意力机制和层叠网络更加有效地进行了文本的建模,其结构对其他自然语言处理任务也带来了深远的影响。 机器翻译的研究趋势: 机器翻译的进一步研究主要集中在以下几个方面:无监督机器翻译研究在没有平行语料的情况下进行翻译学习的方法和技术;非自回归机器翻译探索突破自左向右依次生成的翻译方式,尝试提高翻译过程的并行化水平;多语言机器翻译研究如何更加有效地进行多个不同语言对之间的翻译,通过共享词表、参数等方式,多语言机器翻译系统往往能够提升不同语言对,特别是低资源语言对的翻译效果;多模态机器翻译研究如何在不同模态的数据之间获得共享的数据表示,从而建立在不同模态数据之间的关联。这些研究进一步扩展了机器翻译研究的广度和深度。 为更好的利用机器翻译技术,研究人员也开展与机器翻译应用相关的各项研究,如:文档机器翻译研究如何在翻译过程中利用文档级的上下文,提高文档翻译的一致性和流畅性;领域自适应研究如何提升机器翻译系统在特定领域的翻译能力;翻译质量评估研究如何对机器翻译的翻译效果进行自动分析判断;人机交互式机器翻译研究如何采用人机合作的方式提升机器翻译的质量等。 机器翻译的应用: 由于对海量数据的实时处理能力,机器翻译可以作为辅助技术服务于跨语言检索、跨语言信息抽取等需要在不同语言间展开的任务,一方面可以通过将多种不同语言翻译为同种语言进行分析处理,可以有效处理多语言混合的数据,提供跨语言的检索、查询等服务;另一方面,也可以将英语等语言中特定任务的人工标记数据通过翻译转换为另一种语言,从而缓解部分语言标记资源稀缺的问题。 通过网页在线提供文本翻译服务是机器翻译面向用户提供服务的传统方式之一。此外,机器翻译引擎也可以作为插件加入到多语言办公环境中或者即时通讯软件中,为跨语言沟通交流提供支持。伴随着多媒体技术的发展,机器翻译在应用形式上也展现出多样化的趋势,如:文档翻译、拍照翻译、语音翻译、同声传译等,为机器翻译的应用带来新的发展机会。 参考文献:
术语工委及术语平台介绍:
计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。
术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。
新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入188体育app官网:的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。
计算机术语审定工作委员会 主任: 刘挺(哈尔滨工业大学) 副主任: 王昊奋(同济大学) 李国良(清华大学) 主任助理: 李一斌(上海海乂知信息科技有限公司) 执行委员: 丁军(上海海乂知信息科技有限公司) 林俊宇(中国科学院信息工程研究所) 兰艳艳(清华大学) 张伟男(哈尔滨工业大学)