写点什么

百度翻译十周年:核心技术持续领先,日翻译量超千亿字符

作者:科技热闻
  • 2021 年 12 月 23 日
  • 本文字数:1897 字

    阅读完需:约 6 分钟

百度翻译十周年:核心技术持续领先,日翻译量超千亿字符

实现跨语言无障碍沟通,是人类长久以来的梦想。机器翻译,肩负着架起语言沟通桥梁的重任。百度翻译自 2011 年上线至今,在追梦路上已经走过十个年头。

十年来,从基于互联网大数据的多策略融合的机器翻译到率先发布大规模神经网络翻译系统,从中英翻译到支持 200 多种语言互译,从网页版的文本翻译到融合语音、语言和图像的跨模态翻译,以及翻译 APP、AI 同传、小程序、开放平台、智能硬件等全面丰富的产品矩阵。百度翻译始终把握并引领技术和产业发展趋势,十年来,翻译质量大幅提升 30 个百分点,领域翻译准确率 90%以上,日均翻译量超千亿字符,服务 50 多万企事业单位和个人开发者,实现了机器翻译技术和产业的跨越式发展。

十年之变(一):引领技术变革,翻译质量提升 30 个百分点

机器翻译是人工智能的重要方向之一,自 1947 年提出以来,历经多次技术革新,尤其是近 10 年来从统计机器翻译(SMT)到神经网络机器翻译(NMT)的跨越,促进了机器翻译大规模产业应用。

2011 年,百度翻译攻克了从互联网获取大规模高质量翻译资源的技术难题,上线了基于互联网大数据的多策略融合翻译系统。但是,统计机器翻译经过 20 多年的发展,在长距离调序、译文流畅度等技术难题上,仍然面临挑战。此时,神经网络机器翻译开始萌芽。神经网络模型对句子整体语义建模,是生成准确流畅译文的核心基础。不过,在译文质量、翻译效率等诸多方面存在问题,大规模应用的可行性有待验证。百度敏锐的洞察到了其潜力,经过技术攻关,系统提出融合丰富特征的神经网络翻译模型、优先队列快速解码算法等方案,解决了计算复杂度高、词汇覆盖度低等神经网络翻译核心难题。2015 年 5 月,发布全球首个互联网神经网络翻译系统,世界范围内率先实现了神经网络机器翻译的大规模产业化应用。

历经十年核心技术持续攻关,翻译质量提升了 30 个百分点(国际常用评价指标 BLEU,通常 1 个百分点就是非常显著的提升)。在新闻、科技文献等领域翻译上,翻译准确度达到 90%以上。相关成果获国家科技进步二等奖, 北京市科技进步一等奖等多项奖励。

十年之变(二):打破语言藩篱,支持的语言数量增长 100 倍

我们的世界是一个多文明交流融汇的世界,不同的文化、地域孕育出丰富多样的语言。打破语言藩篱,实现多语言之间的高效沟通,一直是百度翻译努力追求的目标。

然而,多语言翻译并非只是增加语言数量这么简单。一方面,语言资源分布不均衡,大部分语言资源稀缺。使用汉语和英语的人口占了全球的 44.5%,而有些语言使用者不足百人。语言资源的稀缺导致翻译模型训练不充分、翻译质量低。另一方面,随着语言数量增多,翻译系统面临模型数量多、系统部署和维护成本高等一系列技术与产业难题。

针对这些难题,研制了共享编码器的多任务学习神经网络翻译模型,建立了多语言翻译统一框架,大幅降低部署成本、提升多语言翻译质量和效率。从上线之初支持中、英两种语言互译,到率先突破 200 种语言互译,十年间,百度翻译支持的语言数量增长 100 倍,覆盖全球 99%的人口,让人类自由交流的梦想照进现实。

十年之变(三):深度融合人工智能技术,支持跨模态翻译

随着国际交流合作日趋频繁和深入,人们对结合语音、视觉的跨模态翻译需求日益迫切。

百度翻译融合自然语言处理、语音等人工智能技术,针对翻译质量和同传时延难以兼顾的难题,率先提出了语义单元驱动的语音识别和翻译一体化的机器同传模型,实现跨模态知识共享,研发了高质量、低时延的同传系统。翻译准确率超过 80%,平均时间延迟 3 秒,达到了可以媲美人类同传的效果。成功应用于中国国际服务贸易交易会、中国国际进口博览会等重要会议。在技术持续创新突破的同时,也积极开放合作,联合国内外知名大学和企业举办国际机器同传研讨会、发布面向真实演讲场景的中英同传数据集,促进同传研究。百度语音翻译被 MIT 科技评论评为“2018 全球十大突破技术”。

此外,结合计算机视觉技术的拍照翻译、实物翻译也被广泛应用于菜单翻译、商品翻译、外语学习等场景,为用户提供丰富便捷的翻译服务。

十年之变(四):打造丰富产品矩阵,实现大规模产业化应用

十年来,百度翻译研发了包括翻译 PC 版、翻译 APP、AI 同传、小程序以及翻译开放平台等全面丰富的产品矩阵,并形成了完整的产业化解决方案。



截至目前,百度翻译每天响应来自世界各地的翻译请求字符量超过千亿,已经成为全球跨语言交流的重要一环。通过开源开放平台,累计支持 50 多万机构和个人开发者,对比十年前,数量增长 130 倍,广泛服务于能源、通信、政务、新闻、金融等 30 多个重要领域。被 Gartner 评价为神经网络机器翻译“标杆机构”和全球 AI 翻译服务代表性提供商。

百度翻译的十年,是机器翻译技术自主创新的十年,也是机器翻译大规模产业化的十年。在逐梦路上,百度翻译始终秉承“跨越语言鸿沟,让世界自由沟通”的初心,不断探索前沿技术,服务各行各业,为经济社会发展贡献力量。

用户头像

科技热闻

关注

还未添加个人签名 2021.05.31 加入

还未添加个人简介

评论

发布
暂无评论
百度翻译十周年:核心技术持续领先,日翻译量超千亿字符