写点什么

文本转语音技术突破:让计算机拥有自然语音

作者:qife
  • 2025-08-08
    福建
  • 本文字数:857 字

    阅读完需:约 3 分钟

文本转语音技术突破:让计算机拥有自然语音

生成自然、类人的语音一直是科学家们数十年的目标。近年来,文本转语音(TTS)技术的进步使计算机能够发出更接近人类的声音。某中心的科学家和工程师正在这一领域开拓创新,使计算机不仅能发出友好、知识渊博的声音,还能预测话语的情感色彩并以类人的语调回应。

技术演进历程

2016 年,基于神经网络的 WaveNet 技术问世,标志着该领域的革命性突破。这项由某机构研发的技术能够利用真实语音录音训练神经网络,生成逼真的声音。"这项早期研究表明,新的机器学习方法能提供同等或更优的质量,并具有更大的灵活性,"某中心 TTS 研究团队高级经理 Andrew Breen 表示。


在 2000 年代初期,最主流的语音合成方法是混合单元拼接技术。某中心曾使用这种方法构建早期语音助手的声音。"我们会让配音演员在录音室录制大量短语,然后将语音数据分解为单个双音素存入音频数据库,"某中心 TTS 团队首席产品经理 Nikhil Sharma 解释道,"当需要生成语音时,我们从数据库中选取最佳双音素拼接成句子。"

神经网络带来的变革

2018 年,某中心科学家证明,通过使用生成式神经网络方法创建合成语音,可以产生更自然的声音。采用这种方法后,语音助手还能根据内容调整说话方式。例如,科学家仅用几小时的训练数据就创建了新闻播报风格的语音。


某中心近期推出的 Brand Voice 功能,允许组织与 AI 研究科学家和语言学家合作,构建代表其品牌形象的独家神经 TTS 语音。早期采用者已利用这项服务创建了独特的品牌声音。

未来发展方向

研究人员正致力于教计算机理解一组词语的含义,并使用适当的情感表达这些词语。"如果让计算机读一篇新闻文章,它能很好地呈现文章中的词语,"Breen 说,"但它缺少对文章内容的理解——是好消息还是坏消息,重点是什么。它缺乏这种直觉。"


未来,计算机可能仅根据词语的上下文或词语本身就能识别应该如何表达这些词语。"我们希望计算机对环境和对听众都敏感,并相应地适应,"Breen 表示。这项技术的潜在应用包括客户服务、远程学习和新闻文章朗读等。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
文本转语音技术突破:让计算机拥有自然语音_语音合成_qife_InfoQ写作社区