写点什么

案例 | 拯救 Larrakia

作者:澳鹏Appen
  • 2022 年 8 月 24 日
    上海
  • 本文字数:1742 字

    阅读完需:约 6 分钟

案例 | 拯救Larrakia

日语中,有一个专门的词用来形容“阳光下树影斑驳的样子”;在波斯,“tiám”指的是“初遇某个人时眼睛里闪烁着的光芒”;俄罗斯人用“让你看看小龙虾是在哪儿过冬的”来表示威胁;西班牙人用“你是我的另一半橙子”来形容命中注定的灵魂伴侣...


在这个世界上,人们通常使用的语言就有 6,000 多种。每一种语言的背后,展现的都是由点滴生活构建的真实世界。一起走近本期案例故事,了解澳鹏 Appen 如何帮助 Harvey 博士保护 Larrakia 语言之中的奇妙世界。


最后一位能够流利使用 Larrakia 语言的人在 20 多年前就已离世。为保护 Larrakia 语言,语言学家 Mark Harvey 博士与澳鹏 Appen 及研究机构合作,旨在改进 Larrakia 语言可用文本和音频样本的数据库。


该数据库是保护和复兴 Larrakia 语言的重要一步。由有限的 Larrakia 单词和句子开始,逐步构建一个数字化的音频和文本数据库,最终用于学习、教授和传承 Larrakia 语言。在这之中,解决数据差异问题和填补数据空白对于保护语言数据的完整性至关重要。


我希望 20 年后,当有人想要了解这门语言时,至少有我们正在构建的这个数据库,作为他们探寻的钥匙。

——语言专家 Mark Harvey 博士


挑战


“有没有一种简单的方法能够将文本数据库和音频数据库快速匹配起来?”


Harvey 博士首先遇到的挑战是:文本和音频数据库并没有连接起来,难以通过简单的办法来分离特定的句子/说话者,或是对英语段落和 Larrakia 段落进行区分。此外,文本数据库还有很多错误,需要大量的编辑工作。于是,Harvey 博士决定向澳鹏 Appen 求助。一个易于使用、更经得起时间考验的无缝语言数据库便开始了构建。


“您是否尝试过访问 1980 年代的 Word 文档?”


Harvey 博士遇到的另一个挑战是:如何确保数据库在未来长期可用。许多数据年代久远,甚至包括 1980 年代的数字文档,它们与大多数现代软件和计算机并不兼容。Harvey 博士通过与澳鹏 Appen 合作,确保 Larrakia 数据库能够长期保存,同时便于以各种格式进行使用。


解决


澳鹏 Appen 语言学家及专业团队认真分析了 Harvey 博士的诉求,决定首先进一步对齐文本和音频数据库,丰富相关的元数据,并提供声学度量,帮助描述 Larrakia 元音和辅音。澳鹏 Appen 团队将项目的实施分成了三个阶段:


第一阶段:澳鹏 Appen 语言专家提供了补充的英语转录,并通过在相关的意义单位(单词/短语/句子)插入标记来引入更精细的时间戳,然后针对各意群进一步标记出说话人的角色和所说的语言。


第二阶段:澳鹏 Appen 通过精细的颗粒度轻松分离出文本的特定部分,并与 Harvey 博士合作添加和更正数据标签,然后将这些标签插入到数据库中。


第三阶段:从数据中提取元音和辅音子集。澳鹏 Appen 专家对这些子集的语音标注进行质量监督和声学度量,帮助描述及理解 Larrakia 的语音目录。


对于数据处理,过硬的专业知识和执行素质一直是我最需要的。能够处理如此大规模且独特数据的合作伙伴屈指可数。与澳鹏 Appen 的合作超乎我的期待。

——语言专家 Mark Harvey 博士


成果


Larrakia 语言保护项目仍在持续进行中。将文本和音频数据库对齐并学习元音和辅音只是一个开始。下一步,我们将与 Harvey 博士共同探讨如何通过创建一个可持续的数据库来进一步保护和传承这门语言。


在项目继续进行的同时,Harvey 博士对该计划的成功标准做出了定义——他希望最终可以共同创建一个真正可用、易用且“保质期”良好的 Larrakia 语言数据库,让它多年以后仍能为后人所用。



在全球,澳鹏 Appen 拥有超过 100 万名技能娴熟的众包资源,支持 292+种语言和方言,遍布全球 170 多个国家和地区。在中国,我们亦具备丰富的小语种及方言项目经验,除遍布全球的语种资源外,我们的中国本土方言项目经验涵盖东北、上海、武汉、南京、山东、苏州、杭州、天津、四川、广东、闽南等各个区域。每种语言及方言均涵盖大规模专业、高质量的资源池,可做到人机协同、采标一体,高效达到至少 95%以上的准确率要求。


APPEN

澳鹏 Appen Limited (ASX:APX) 是全球领先的图像、文本、语音、音频、视频等 AI 训练数据服务提供商,拥有业内最先进的人工智能辅助数据标注平台、一体化的 AI 数据及资源管理平台及全球 100 多万名技能娴熟的众包资源,支持 292+种语言和方言。澳鹏 Appen 的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的领导者提供优质、安全、高效的服务。澳鹏 Appen 成立于 1996 年,客户和办事处遍布全球。点此了解更多


发布于: 刚刚阅读数: 3
用户头像

澳鹏Appen

关注

还未添加个人签名 2021.03.15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
案例 | 拯救Larrakia_人工智能_澳鹏Appen_InfoQ写作社区