微软运用人工智能技术实现多语言实时语音翻译

2016-12-16 15:05:49 中用科技有限公司 7

拿起手机,打开应用,按下麦克风图标的按钮,然后对着麦克风位置说话。

这样的应用场景是否让你似曾相识?只不过微软将这样的使用场景用在了实时语音翻译上。

借助智能手机,微软开发的新一代翻译工具,能够实现实时的语音翻译。13日,微软发布了最新一代翻译工具(Microsoft Translator),目前可以实现包括中文在内的9种语言的实时语音转为文本翻译。

微软翻译产品营销总监Olivier Fontana 14日对腾讯科技表示,微软认为,现在几乎人人都拥有的智能手机,为实时语音翻译提供了良好的硬件条件。

图片关键词

微软翻译产品营销总监Olivier Fontana展示微软新一代翻译工具

此次微软发布的翻译工具最大的亮点在于,通过底层的深度神经网络技术的应用,能够实现更准确的语音识别和翻译。

Fontana介绍说,该工具的语音识别部分和翻译部分分别采用了ResNet深度神经网络和LSTM(长期短期记忆)技术,其中ResNet神经网络深度达到了150层。

在用户界面方面,微软采用了类似微信“面对面建群”的方式:参与到对话中的所有人都在一个群组中,任何人对着群组说自己的语言,其他群组成员就能在群组的聊天界面中实时看到翻译成自己所使用的语言的文字。

图片关键词

以创建和加入群组的方式进行实时语音翻译

为了试验该翻译工具的具体功能,Fontana 与我以及另一位公关人员就使用该工具的群组语音实时翻译功能,进行了一场三种语言的交互对话,我们各自用中文、法语和英语对着应用说话,我们各自手机的群组中则自动呈现中各自能够识别的语言文字。

就我个人的体验感受来说,整个过程非常简单易用,界面简洁直观,发起对话的人只要新建群组,就随机自动生成一个群组代号以及二维码,其他参与到该群组中的人只需扫描二维码或者输入群组代号,并且选择自己的语言,就能即刻加入到对话当中。

对于语音的识别以及翻译过程,也十分流畅,在我们三人简单通过该工具用各自语言进行对话的过程中,并没有出现太多的影响对话节奏的延迟问题。

当然,语音的识别和翻译的准确率依然存在一定的瑕疵,比如当我用更为口语化的中文语言进行对话时,翻译的质量便并不是特别好,只有当我使用简洁、逻辑清晰的语言时,翻译出的文本质量才让我比较满意。

图片关键词


翻译结果以用户熟悉而亲切的聊天界面方式呈现

Fontana介绍说,这一工具能够在很多实际的场景下得到应用,例如国际旅游团的导游向使用不同语言的各国游客介绍景点,在陌生的国度乘车时与司机进行实时对话,参加使用不同语言的国际性会议等。

目前该翻译工具支持苹果iOS、安卓、Windows等系统,除了手机端,也能够在个人电脑上通过网页创建或加入群组对话。

Fontana介绍说,该翻译工具使用了深度神经网络技术,在使用过程中的语音数据也会上传至云端供神经网络的训练使用,他强调了所有上传到云端的语音都是匿名的,以保护使用者的隐私。

此外,微软在该产品的开发过程中,还特别注意到了一些其他特殊场景的应用所需考虑到的细节,例如在教室中使用,系统会自动只让创建群组的教师的声音能够被录入,而学生的声音不被录入,因为美国法律规定在不被允许的前提下,不能让学生的声音被采集。另外,该翻译工具还能自动屏蔽污言秽语,这些文字会以*号呈现,翻译的语音则由“哔”音或其他用户自定义的声音代替。

目前,越来越多的人工智能技术被运用到翻译应用中。前不久谷歌(微博)翻译团队发布的全新的翻译工具,同样也运用了LSTM技术,无论是翻译的准确度还是质量相较过去的基于词组和短句的翻译方式,都得到了显著的提高。