一文读懂「TTS 语音合成技术」
有没有发现,我们与机器的对话正变得愈发灵动与自然?人机交互越来越广泛地应用在我们的生活中,而这些都离不开语音合成技术的与时俱进。
语音合成,即 TTS,是语音数据采集的重要方式。本期澳鹏干货,我们将带你走近语音合成技术,快速了解语音合成技术的背景、原理、数据制作及应用场景。
语音合成技术的背景
语音合成,即文本转语音(text to speech),是由文字形成的计算机语音。历史上已知最早模仿人类语音的装置是 Wolfgang von Kempelen 在 200 多年前建造的。19 世纪后半叶,赫尔姆霍尔茨等人开始通过叠加具有适当振幅的谐波波形来合成元音和其他声母。
语音合成技术原理
语音合成包括 2 个主要阶段,即文本分析和语音合成。文本分析与一般的自然语言处理(NLP)步骤相似,例如句子分割、单词分割、语音部分(POS)。第一阶段的输出是 grapheme-to-phoneme(G2P),它是第二阶段的输入。在语音合成中,它将第一级的输出生成波形。
语音合成系统和数据制作
过去的机器虽然能正常发声,但随着当代人机交互体验需求的增加,机器的声音就显得苍白而僵硬,无法给人类提供最生动的交互体验。如今,现代语音合成系统更关注体验至上的个性化技术产出,分为:通用 TTS、个性化 TTS 和情感 TTS。
通用 TTS
可满足商业化需求,通过前期录制(数据采集)、后期数据清洗及数据标注可以得到一套完整的“商用数据库”。
个性化 TTS
根据数据产品特点,提供不同类型的声音,进行语音库的个性化定制。
情感 TTS
情感意图识别是情感 TTS 的重要技术之一。想要更加趋近于人类的真实语言,让机器不只是一台冰冷的复读机,这是企业都想要产品能够达到的效果。
语音合成的两种常见方法是拼接法和参数法。
拼接法:在预先录制的语料库中抽取合适的拼接单元。对于声音的质量要求高但不利于商用,数据规模量级需求过高导致商用成本高。
参数法:对语料库进行参数建模,分为前段处理、建模和声码器三个模块。对数据库需求小,但声音质量会相对粗糙。
语音合成的常见应用场景
作为上游技术的语音合成技术如何应用于下游 AI 场景中?语音合成助手、智能客服、有声读物、呼叫中心、车载娱乐设备等等都是语音合成技术常见的应用场景。
为了让用户体验更为真实和丰富,许多更上游的数据采集公司都会与声优演员直接合作,让客户去挑选声音,满足终端用户更加个性化的需求。
澳鹏 Appen 语音合成数据服务
每一个成功的语音合成(TTS)产品都离不开高质量和稳定的音频数据和无限接近 100%准确的标注。澳鹏 Appen 凭借在语音合成(TTS)领域 20 多年的经验,一直致力于探索如何利用先进科技不断进行创新。我们的声优资源平台汇集各领域、多种风格的声优样音,供您挑选专属样音以开发世界一流的语音产品。
我们的语音数据采集服务包括语音合成、ASR 和方言采集,拥有资深语言学家团队和专业采集经验,是全球语音数据服务的领军者。点击此处,与我们的专家联系。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/bdc90b1cca951aef49bb95dff】。文章转载请联系作者。
评论