写点什么

首次开源!一行代码轻松搞定中英文语音识别、合成、翻译核心功能!

作者:百度大脑
  • 2021 年 12 月 23 日
  • 本文字数:1786 字

    阅读完需:约 6 分钟

 导读 

要说生活里最常见的 AI 应用场景,语音合成与识别当属大家最为耳熟能详的场景之一了。

寻常到平时地图导航的播报、微信语音转文字、手机语音输入,以及小度智能音箱,都离不开语音技术的加持。

语音技术到底是怎么实现的?有哪些现成可用的开源代码可以快速集成到项目里?可以说是每一名开发者非常关心的问题。

那么,福利时间到了,今天这个集成了中英文语音识别、语音翻译、语音合成、声音分类能力,而且一行代码轻松试验效果的开源项目,你一定不能错过!

 项目介绍 

话不多说,先来看项目中给出的效果展示。

语音识别

输入音频 1


点击链接立即查看:https://mp.weixin.qq.com/mp/audio?_wxindex_=0&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzg5&sn=7aacd9f6d9737fc8e9ca33f94ab6b975#wechat_redirect识别结果 1I knocked at the door on the ancient side of the building.

 

输入音频 2


点击链接立即查看:https://mp.weixin.qq.com/mp/audio?_wxindex_=1&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzkw&sn=c4dd22c0470580b174236510b72c98cd#wechat_redirect

识别结果 2 我认为跑步最重要的就是给我带来了身体健康。

语音翻译(英译中)输入音频


点击链接立即查看:https://mp.weixin.qq.com/mp/audio?_wxindex_=2&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzkx&sn=dda717c6fbe4d8e7f1a5a9642abac7f0#wechat_redirect

识别结果

我在这栋建筑的古老门上敲门。

语音合成输入文本 1Life was like a box of chocolates, you never know what you're gonna get.

合成音频 1


点击链接立即查看:https://mp.weixin.qq.com/mp/audio?_wxindex_=3&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzky&sn=641ff8c4c99d448d26264533ec766f2c#wechat_redirect

输入文本 2 早上好,今天是 2020/10/29,最低温度是-3°C。

合成音频 2


点击链接立即查看:https://mp.weixin.qq.com/mp/audio?_wxindex_=4&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzkz&sn=e9b625d90d02a5c9032078addec7ce25#wechat_redirect

可以看到,无论是中英文的识别,还是中英文的合成,这个开源项目都有不错的效果,特别的,项目中还包含了语音翻译能力,可以实现英文语音同传翻译为中文字幕,这个确实太强大了。

传送门:

GitHub 地址:https://github.com/PaddlePaddle/PaddleSpeech

有读者肯定想问,这么强大的语音能力,是不是想要用起来比较麻烦?

不得不说,这个项目在易用性上真的也是考虑得非常周到。

 安装测试效果 

按照首页的引导:

一行命令安装:



一行命令快速开始使用: 



这里,可以抱着试一试的态度,在本机上安装了这个项目,安装完成之后,先使用语音合成试一下。



生成的效果大家可以听一下~



点击链接立即查看:https://mp.weixin.qq.com/mp/audio?_wxindex_=5&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzk0&sn=07afba97d57e77290278a1b7a82ff64d#wechat_redirect

然后,带着好奇心,再把合成的结果送到语音识别试一下,看看效果:



最终输出结果:



可以看到,这一套循环下来,效果非常不错!

除了出色的效果,易用的体验,我们再看看这个项目中还有什么宝藏可以挖掘,果然我们发现项目中还包含丰富的预训练模型,并且语音识别和语音合成均支持自定义训练。

 丰富的预训练模型 

语音识别包含声学模型和语言模型,详情如下:



语音合成主要包含三个模块:文本前端、声学模型和声码器。

声学模型和声码器模型如下:



 完善的文档教程 



并且开源以来,收到开发者的广泛关注,已经有大量开发者投入到项目的建设中并且贡献内容。



真·干货满满!



别的不需要多说了,请大家访问 GitHub 亲自体验吧:

https://github.com/PaddlePaddle/PaddleSpeech

如果大家满意的话,欢迎点个小星星鼓励下我们的工程师!


 百度 AI 开发者社区百度AI开发者社区 ,为全国各地开发者提供一个交流、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过不断地交流与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开拓应用场景,赶快加入百度 AI 社区,你对 AI 的所有畅想,在这里都可以实现!

发布于: 1 小时前
用户头像

百度大脑

关注

用科技让复杂的世界更简单 2020.07.15 加入

百度大脑是百度技术多年积累和业务实践的集大成,包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。 即刻获取百度AI相关技术,可访问 ai.baidu.com了解更多!

评论

发布
暂无评论
首次开源!一行代码轻松搞定中英文语音识别、合成、翻译核心功能!