人工智能促进知识的公平获取
在日常的学习和工作中,相信不少人都有过这样的经历——早期的在线翻译软件笨拙呆板,逐字直译,往往导致对语言细微差别的严重误解。而目前在一众翻译软件中,微软翻译可以说是一个宝藏。
微软翻译支持 110 种语言,使多语言同步交流得以实现。其中,澳鹏 Appen 为这 110 种语言中的 108 种提供数据支持。一起来走进今天的案例故事。
微软翻译从世界上最常用语言的翻译开始。通过不断添加越来越多的语言,微软翻译如今已扩展至 110 种语言可供用户用于翻译和使用其他语言工作。
微软翻译中不断涌现的不常用语言,也是在教育和呼吁年轻一代保护正在消失的语言,以促进知识的公平获取。
挑战
微软翻译由 Azure 认知服务提供支持,使用 AI 技术解析语言,并将其翻译成另一种语言。为此,微软翻译团队需要一个高精度标注的大型训练数据集来训练每种语言的翻译模型。
对于一些不太常用的语言或已编目语言,微软翻译很难获得所需规模的数据集。创建数据集需要时间、知识和资源。翻译成具有不同字母的语言首先需要语音相似性和音译,这需要由专业人员和语言学家完成。因此,微软必须找到每种语言的流利使用者,采集并标注各个数据点,并进行质检以确保准确性。
为了加快上市时间,微软翻译团队与澳鹏 Appen 团队合作,以高效达到采集和准备所需数据的精度要求。
解决
澳鹏 Appen 团队为微软翻译提供专业知识、资源和创造性解决方案,为罕见语言创建翻译数据集,并进行必要的质量检查。
在工作中,与本地资源合作,从流利的语言使用者获得翻译数据。我们采集数据,通过转录和翻译各条数据来标注数据,并评估模型输出的质量保证和准确性。为避免数据偏见,我们开发了一项服务,帮助微软为性别模糊不清的源语言生成多个翻译,以解决翻译偏见问题。
澳鹏 Appen 为微软翻译所做的工作涵盖 AI 生命周期数据的三个阶段:数据获取、数据准备和人工模型评估。通过我们的工作,微软翻译可以及时获得他们所需的高质量数据。
成果
目前,在微软翻译提供的 110 种语言中,包括的较新和不太常用的语言有:阿萨米语、巴斯克语、达里语和普什图语、库尔德语、中文文言文、毛利语、奥里亚语等。在这 110 种语言中,澳鹏 Appen 为其中的 108 种提供数据支持。
与微软翻译合作,通过振兴罕见语言而为促进知识的公平获取尽一份力,这也与“AI 向善”的美好目标不谋而合。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/373807a926c8989033f0f0e25】。文章转载请联系作者。
评论