188体育app官网_188体育投注

返回首页

联手自然语言处理专委会:非自回归式翻译模型术语发布 | CCF术语快线

阅读量:44 2021-09-03 收藏本文

本文为CCF计算机术语审定委员会联合自然语言处理专委会推出的介绍计算机行业术语的文章。


开篇导语:


本文为CCF计算机术语审定委员会联合自然语言处理专委会推出的介绍计算机行业术语的文章。本期介绍的术语是非自回归式翻译模型(Non-Autoregressive Translation Models)。与以往自回归式模型逐词解码的方式不同,非自回归式模型可以同时解码出句子中所有的词,极大地提升了解码效率,引起了广泛的研究和关注。本文简要地介绍了非自回归式翻译模型的定义,进展以及面临的挑战。非自回归式翻译模型一开始在翻译的场景下被提出,但也陆续被用于机器翻译之外的其他文本生成场景。


作者:钱利华(字节跳动人工智能实验室)、周浩(字节跳动人工智能实验室)


非自回归式翻译模型(Non-Autoregressive Translation Models)


InfoBox:

中文名:非自回归式翻译模型

外文名:Non-Autoregressvie Translation Models (NAT)

学科:自然语言处理

实质:使用并行解码的机器翻译模型


基本定义:

非自回归式翻译模型是一种使用并行解码的机器翻译模型。不同于自回归式模型自左向右的逐词输出方式,非自回归模型并行输出所有的词,具备更高效的解码速度 。


640 (1)

图1 自左向右逐词输出(左)和并行输出所有词(右)


非自回归式翻译模型的进展:

在深度学习时代,机器翻译所使用的神经网络模型基本都是自回归式模型。在自回归模型中,每一个输出词依赖于所有前面位置的输出词。早期使用的LSTM[1]或者GRU[2]模型在编码和解码中都是逐词按顺序进行计算的。近年来常用的Transformer[3]将整个训练过程并行化,但是生成时的解码过程仍然需要逐词输出。


为了将生成时的解码过程也并行化,Gu等人[4]提出了非自回归式翻译模型。非自回归式翻译模型假设给定输入之后所有的输出词条件独立,在此基础上实现并行生成。但是实际的数据中可能存在“同一个输入对应多个输出”的情况,并行生成时容易受到多个可能结果的干扰,难以输出通顺的语句。


由于生成时只进行一次并行解码的难度大,Lee等人[5]提出使用多次并行解码迭代修改生成结果。在迭代式解码的框架下,Ghazvininejad等人[6]使用了一种替换部分词的解码和训练方式,将迭代式并行解码模型的生成质量提升至自回归式模型的水平。使用迭代式解码的模型不属于严格意义上的非自回归式模型,因此也被称为半自回归模型。


虽然使用多轮迭代解码的半自回归模型拥有不错的生成质量,但在只进行一次解码时生成质量仍然较差。为了改进只有一次并行解码的纯非自回归模型,Qian等人[7]提出了建模词之间依赖关系的训练方式,使模型只进行一次并行解码也能达到自回归模型的水平。基于该训练方式的并行翻译系统在WMT2021击败了所有的自回归翻译系统,取得了德英翻译第一名,展现出并行生成方式巨大的潜力。


非自回归式翻译模型的挑战:

非自回归式翻译模型面临的一个主要的挑战是多模态问题。多模态问题指的是对于同一个输入有多个对应的输出,并行生成在这种情况下可能难以生成通顺的语句。例如“I'm happy"可以翻译成“我很高兴”或者“我很快乐”,但是并行生成在输出之前无法确定每一个位置的具体用词,因此可能会产生“我很高乐”这样的错误。


目前常用的解决方法是使用自回归式模型将训练数据进行知识蒸馏[4]。具体的知识蒸馏过程是使用训练好的自回归式模型生成新的目标语句,然后将生成的目标语句作为非自回归式模型的训练目标。尽管使用知识蒸馏确实有效地缓解了多模态问题,但也增加了非自回归式翻译模型的训练代价,并且会限制非自回归式模型在缺乏合适的模型用于知识蒸馏时的使用。


参考文献:

[1]Hochreiter, S. and Schmidhuber, J., 1997. Long short-term memory. Neural computation, 9(8), pp.1735-1780.
[2]Cho, K., van Merri?nboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H. and Bengio, Y., 2014, October. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 1724-1734).
[3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, ?. and Polosukhin, I., 2017. Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
[4]Gu, J., Bradbury, J., Xiong, C., Li, V.O. and Socher, R., 2018, February. Non-Autoregressive Neural Machine Translation. In International Conference on Learning Representations.
[5]Lee, J., Mansimov, E. and Cho, K., 2018. Deterministic Non-Autoregressive Neural Sequence Modeling by Iterative Refinement. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 1173-1182).
[6]Ghazvininejad, M., Levy, O., Liu, Y. and Zettlemoyer, L., 2019, November. Mask-Predict: Parallel Decoding of Conditional Masked Language Models. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (pp. 6112-6121). 
[7]Qian, L., Zhou, H., Bao, Y., Wang, M., Qiu, L., Zhang, W., Yu, Y. and Li, L., 2020. Glancing transformer for non-autoregressive neural machine translation. In Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021) (pp. 1993-2003).

术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。


术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。


新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入188体育app官网:的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信图片_20230410125847