Talk to AI,揭秘背后的语音识别数据
语音识别正在进入我们日常生活的方方面面。它内置在我们的手机、游戏机或智能手表中,只需呼唤它的名字,就可以帮你订外卖、播报天气等等。经过几十年的发展,深度学习使得语音识别技术可以应用到更多的实际场景中。
语言是人与人沟通最重要的方式,语音识别能力是让机器理解人类世界的基础能力。通过深度学习算法建立语音识别模型,需要大量高质量的结构化语音数据对模型进行训练。语音分割和语音转写即对非结构化语音数据进行的结构化处理。
澳鹏 Appen 中国自主研发的人工智能辅助数据标注平台,集成了为多样场景定制的标注工具箱。其中,语音分割和语音转写工具便是 Appen 团队专门针对高质量的语音识别模型训练而研发。
语音分割
SEGMENTATION
语音分割是指标记语音信号的开始时间和结束时间,以划分出一段语音中句子、单词、音节的边界。根据是否存在实际说话内容,音频可分割为有效片段和无效片段。根据算法要求的不同,通常的分割处理方式有两种:
方法 1:分割出无效片段
分割出无效片段,并对无效片段打标签,如噪音、背景音乐、音量过小等。
方法 2:分割出有效片段
只分割出有效片段,无效片段不做分割。
澳鹏 Appen 标注工具支持多种标注方式。当一段语音中同时存在多个说话人时,工具也支持不同的分割方式:可根据主说话人的语音内容分割,只分割出主说话人的语音;也可独立分割每个说话人的语音内容,不同说话人的分段可能会有重叠。
▲多个说话人的分割处理
在实际项目中,通常要求切分时间点与第一个音节的开始时间只相差几百甚至几十毫秒,这对于标注工具及人员操作的要求较高。澳鹏 Appen 标注工具可提供刻度、量尺等功能,辅助达到高标准的标注精度要求。
与此同时,澳鹏 Appen 标注工具还可以使用语音分割算法对数据进行预处理,使得实际标注时只需要在预处理的基础之上做出调整即可。
语音转写
TRANSCRIPTION
语音转写是指将分割出的每个语音段里的内容转写成文字。除了转写出文本外,还可以给语音设置属性标签、文本标签等,以满足语音分类、情绪判定等不同的标注需求。
由于不同说话人的语速、说话清晰度等都不尽相同,因此标注工具需要支持不同的播放速度设置,以及不同的语音播放模式。
在分割出语音片段后,工具支持给每个片段选择不同的属性标签,如说话人、情感、内容分类等等,可用于对语音内容的分类;在转写文本中,工具亦支持进一步在文字中设置停顿、强调、疑问等文本标签。
▲设置文本标签
同样地,语音转写工具也具有算法辅助功能:标注员完成音频分割后,可通过算法预转写语音内容,并在预转写结果的基础上进行修改。
▲算法辅助转写
吴恩达曾经预测,当语音识别的准确率从 95%提升到 99%时,语音识别将成为人类与计算机交互的新方式。这 4%准确率的提升,使得未来语音识别技术的应用充满无限想象。
澳鹏(中国)人工智能辅助数据标注平台
集成多样标注工具箱 覆盖各种标注场景
扫描下方二维码
与我们的专家咨询落地方案
澳鹏 Appen 是全球领先的 AI 训练数据服务提供商。凭借 20 多年的海外平台实践,澳鹏中国产研精英团队独立自主打造了适合本土行业特点的“高精度 AI 数据服务平台”,集成了强大的产品技术攻关能力、高效的项目管理水平及百万级众包资源。目前已助力全球 7500+个 AI 项目研发及商业化。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/3bafb7045c127274e6a573146】。文章转载请联系作者。
评论