【Python 实践】使用 Python 实时语音控制电脑全局音量
前言
说到人工智能中语言实时识别技术及通过人工智能控制设备,大家应该比较熟悉,基本充斥着我们生活的方方面面,比如智能家居,我们手机中的智能机器人,如:苹果的 Siri,小米的小爱,天猫精灵,华为的小艺,微软的小冰,以及银行大堂或者酒店前台线下服务类的迎宾机器人等等。都是我们常用到的人工智能语音实时控制技术,那假如我们自己来开发一个语言控制程序来控制我们的电脑或者其他设备,我们应该怎么做呢,一直停留在应用层面的开发人员是不是跃跃欲试呢。开发这样的程序我们需要用到哪些技术,哪些库呢?废话不多说,直接进入实操阶段。本文通过实现实时语音控制电脑音量展开实操。
需要用到的技术和工具
Python
正如我们的题目所提到。所以实现这个程序需要使用到 Python 编程语言,还没学会 Python 语言的童鞋,可以快速了解一下,就算不了解。如果你只是想试试,跟着教程基本也能完成,但是前提是你电脑有 Python 的开发环境,关于环境的相关安装,线上有很多介绍,这里就不再赘述
语音识别库 SpeechRcognition
SpeechRcognition 的特点优势:
满足几种主流语音 API ,灵活性高;
Google Web Speech API 支持硬编码到 SpeechRecognition 库中的默认 API 密钥,无需注册就可用;
SpeechRecognition 无需构建访问麦克风和从头开始处理音频文件的脚本, 只需几分钟即可自动完成音频输入、检索并运行。因此易用性很高。
安装命令:
安装情况如下图:
音频库:pyaudio
pyaudio 库,使用 pyaudio 可以进行录音,音频播放,生成 wav 文件等等操作。PyAudio 提供了 PortAudio 的 Python 语言版本,这是一个跨平台的音频 I/O 库,使用 PyAudio 你可以在 Python 程序中播放和录制音频。为 PoTaTudio 提供 Python 绑定,跨平台音频 I/O 库。使用 PyAudio,您可以轻松地使用 Python 在各种平台上播放和录制音频,例如 GNU/Linux、微软 Windows 和苹果 Mac OS X/MACOS。
安装命令如下:
安装情况如下图:
百度人工智能接口
AipSpeech 是语音识别的 Python SDK 客户端,为使用语音识别的开发人员提供了一系列的交互方法。
安装命令如下:
代码中的使用
官方文档:https://cloud.baidu.com/doc/SPEECH/s/Bk4o0bmt3
官方链接:https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/overview/index
电脑控制模块 pycaw
pycaw 是一个 windows 系统控制的 Python 库,本文就是通过 pycaw 库来对电脑音量进行控制
安装命令如下:
下面直接进入实践阶段
编程实践
百度接口基本使用
导入百度语音库 AipSpeech
这个是实时语音效果:
引入其他相关库
音量控制需要引入的库,所以说 Python 开发简单,得益于他有很多现成的模块
由于 pycaw 中的 vol_range 与 0-100 这个不是对应的关系,不方便设置实际的声音,因此需要进行装换,但是无法得知其转换关系,暂时没有转换的公式,只能通过字典的形式查询,建立音量对应关系如下:
因为语音识别接口识别出来可能是中文,这里需要将数字中文表达转为数字
调用麦克风进行语音识别
完整代码
版权声明: 本文为 InfoQ 作者【迷彩】的原创文章。
原文链接:【http://xie.infoq.cn/article/f305c63156bd6b3e6adaccd58】。文章转载请联系作者。
评论