Facebook這項翻譯新技術，或許將幫人類彌合語言的鴻溝

Facebook这项翻译新技术，或许将帮人类弥合语言的鸿沟

Facebook

原标题：Facebook这项新技术，或许将帮人类弥合语言的鸿沟

(((0)))

现实中，不同语言成为了各自所属文化的因子，构建出一种多样的美。但语言仍像鸿沟，阻碍着人类的交流。

最近，Facebook 用人工智能对翻译系统进行了一次重大改造。

他们的工程师发现，网站上对帖文和回复进行翻译的按钮每天会被点击数十亿次，翻译动作有数千个方向（比如中英互译，英文到中文是一个方向，反之又是另一个方向）之间。

如此巨量的翻译工作，Facebook 一直以来做的却不好。他们过去使用的统计机器系统，翻不准俗语，识别不了错字和缩写，无法理解上下文，很难准确翻译帖文的意图。于是，工程师们用改用一种名叫“带注意力的长短时记忆”(Long Short-Term Memory with attention, LSTM) 的深度学习技术，设计了一套人工智能翻译系统。

目前，新的神经机器翻译系统已完全取代了过去的机翻系统，部署到Facebook 网站、Instagram 以及其他产品中。改造的效果显著：按照业界公认的BLEU 标准，Facebook 新翻译系统各种语言互译得分比旧系统提高了11%。

人际沟通大多通过语言完成。而当参与方不使用统一语言，沟通就必须通过翻译。因此翻译系统的准确度极大影响着沟通的成果。但遗憾的是，绝大多数网上和手机上的翻译网站和软件，背后的技术都来自机器翻译。

通常，机翻系统对常见的单词、短语和句法简单的句子翻译效果较好。如果一句话就是主谓宾，比如“我吃米饭”，系统翻译成“I eat rice”，这没问题。

但比如中日互译、或者下图中土耳其语和英文互译，原文的语言和翻译后语言在句法上有很大的差别，机器翻译就会捉襟见肘了。下图是机翻结果：

Facebook这项翻译新技术，或许将帮人类弥合语言的鸿沟

截图

翻译出的英文没有语法错误，但还是不太容易懂什么意思。这是因为机翻会把句子拆成一个个字段，结果就是把一个个字段的翻译放出来，没有对目标语言的语序、语法和表达习惯进行优化。

人工智能怎样做到更准确、更有人味儿地翻译呢？

维基百科解释， LSTM 是一种在时间上递归神经网络(Recurrent Neural Network)，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。翻译正好是这种类型的工作，因为很长的一句话，可能后半段是对前半段的逻辑呼应，但机翻系统根本不记得前面说的是什么。

LSTM 能记住整句话的内容，对句子的上下文进行反溯，理解逻辑，从而给出更精确、流利和地道的翻译结果，如下图：

Facebook这项翻译新技术，或许将帮人类弥合语言的鸿沟

截图

“注意力”(attention) 也是深度学习里一个很有趣的机制，它有点像人类观察事物时眼神的聚焦，锅里有菜，你会自动把更多注意力分配到菜上而不是锅或者锅柄。

注意力能够帮助新系统留意一些在标准英语辞典里没有出现的词，这些词很有可能是缩写和短语，比如idk (I don’t know)、tmrw (tomorrow)，也有可能是网络用语。当神经机器在句子里发现这样的词，会先留空不翻译，分配一定的计算力，去其他词库和训练数据集查找这个词的释义，最后再翻译出来。

不仅如此，研发团队还利用了一些神经网络剪枝（保留重要的权重）和压缩编码的算法，极大地降低神经翻译系统的词汇表大小，减小了计算量，但没有拉低翻译精度。

搞定了翻译系统，并不是终点，工程师们还要把它部署到Facebook 数十亿用户量级的后端系统中去。开发了深度学习框架Caffe 的Facebook 研究科学家贾扬清，已经带队开发出了更注重模块化，利于移动端和大规模部署的Caffe2。在新框架上运行，神经翻译系统的效率提升了2.5 倍。

由于深度学习技术的进展，神经机器翻译在近年越发流行，并已进入许多流行的产品中，开始帮助人们更好地沟通。微软推出的翻译软件Microsoft Translate，让沟通多方像用微信一样加入群聊，自然对话并获得各自的翻译，备受好评。

Facebook这项翻译新技术，或许将帮人类弥合语言的鸿沟

翻译软件

去年，全球5 亿人使用的Google Translate 服务中部署了神经翻译机器。当时PingWest品玩用一些经典中英段落测试互译，仍会出现奇怪的翻译：

(((1)))

人工翻译：

(((2)))

Google 神经机器翻译（去年）：

(((3)))

时隔一年之久再去测试，效果已经好了很多：

(((4)))

这是由于神经机器翻译后端的深度学习系统学习能力比统计机更强。随着输入的数据源，以及使用的人越来越多，它能不断提升翻译技巧。Facebook 用户刚刚超过20 亿，每天都有超过13 亿说不同语言的人在上面分享活动、发图片、评论以及点赞。现在，Facebook 翻译后端已经完全迁移至神经机器翻译，这些训练好的神经网络每天处理多达45 亿次翻译请求。

未来，Facebook 打算引入一些更先进的神经网络架构，比如卷积神经网络(Convolutional Neural Networks, CNNs)。测试结果发现使用CNN 进行英法互译的BLEU 得分比LSTM 进一步提升了12%。不仅如此，他们也在尝试一些更难的挑战，比如多语种（而非双语种）翻译。

届时，基于神经网络的翻译系统，将在精度、地道程度、多语种翻译能力等更多维度上超过和取代统计机，甚至人工翻译——就目前来看，取代这些工作可能是人工智能为数不多的坏处之一。

Facebook这项翻译新技术，或许将帮人类弥合语言的鸿沟

相关推荐