语音识别之降噪技术
语音识别大家都不陌生,手机语音助手随处可见,比如熟知的苹果语音助手 siri.但是大家有没有思考过其中的降噪技术,尤其在复杂背景下或者多人说话的时候,语音助手是不是经常出现错误,这跟识别背景噪音有很大的原因,今天小王学长就跟大家唠唠语音降噪中的那些事~
噪声其实是指一切干扰正常信号特征的信号,即信号中不需要的特征。平时大家在用耳机听歌和打电话的时候,有时会听到刺啦刺啦的声音,就是典型的噪声。说到这,简单跟大家讲讲如何选购好的降噪耳机。
降噪耳机分为主动式降噪和被动式降噪两种,市面上常见的耳机都是被动式降噪,这种降噪成本低,原理简单,但是降噪效果不尽人意。而主动降噪技术发展数十年,也算成熟,降噪音质等效果也比被动降噪好的多,但是价格昂贵,多则数千元,并且目前行业内拥有主动降噪核心技术的几家公司均不会透露自己的技术,对延伸民用市场发展不利。所以想要降噪好的耳机,还是买类似 HiFi 耳机这种带主动降噪的高端耳机比较好。
一、话说噪声类别
说降噪技术之前先跟大家讲讲降噪中的噪音具体都是什么?
一般根据噪声对语音频谱干扰方式的不同,可以将噪声分为加性噪声和乘性噪声。
加性噪声是指当噪声对语音的干扰表现为两者信号在时域进行相加;而显然噪声和语音频域中也为相加关系实际环境中背景噪声可以看成加性噪声,如风扇的声音、汽车引擎声、周围人说话声等;加性噪声是对背景噪声一种比较贴切的表述;麦克风等声音采集设备在正常工作的范围内,可以近似看成一个线性系统,即产生信号的幅度和声强呈正比;从能量角度看背景噪声和语音的声强是叠加关系,两者对麦克风共同作用形成的带噪语音信号等于各信号之和;目前针对这类噪声的研究最为常见。
乘性噪声是指噪声和语音在频域是相乘的关系,在时域和语音则是卷积关系,因此也称为卷积噪声;在实际应用中乘性噪声主要体现在语音采集、麦克风传输中电话信道和无线信道的频率选择特性;乘性噪声可以通过某种变换如同态滤波,转变为加性噪声。
白噪声是指功率谱密度在整个频域内均匀分布的噪声,所有频率具有相同能量的随机噪声称为白噪声。
粉红噪声定义为在与频带中心频率成正比的带宽(如倍频程带宽)内具有相等功率的噪声或振动;粉红噪声的频率分量功率其实主要集中在中低频段。
工厂噪声一般是指工业设备及其在运转时产生的噪声。
根据噪声统计特性随时间变化的程度不同,可将噪声分为周期噪声、脉冲噪声、缓变噪声和平稳噪声等。
周期噪声
发动机产生的干扰、市电干扰都是周期噪声;其特点在于频域上有很多离散的线谱;这种周期性噪声可以用梳状滤波器加以滤除,用数字信号处理的方法来处理;实际环境中产生的周期性噪声并非简单的只含线性谱分量,而是由许多窄带谱组成;该类型噪声往往是时变的,并与语音信号频谱重叠,往往需要采用自适应滤波的方式才可能自动识别和区分噪声。
脉冲噪声
打火、放电都会产生脉冲噪声;脉冲噪声表现为在时域波形中出现的窄脉冲,只要脉冲噪声不是太密,一般可用内插法来去除这种噪声。
缓变噪声
缓变噪声是在实际场合中经常遇到的噪声,这种噪声的统计特性会随着时间缓慢变化;人群噪声是典型的缓变噪声。
平稳噪声
平稳噪声是指噪声的统计特性不随时间发生变化;由于噪声源的复杂性,在日常生活中遇到的噪声大多是非平稳的,但对平稳噪声的研究是噪声分析的基础。
按照噪声覆盖频率范围可将噪声分为全频带噪声(也称为宽带噪声和窄带噪声)
全频带噪声
覆盖了信号全部频率带的噪声称为全频带噪声或宽带噪声;其来源有很多,如热噪声、气流(如风)、呼吸噪声、量化噪声以及各种随机噪声源;对于平稳的全频带噪声可认为是高斯白噪声;对于不具有白色频谱的噪声,可以先进行白化处理,然后转化为白噪声。
窄带噪声
只覆盖信号的部分频率带的噪声称为窄带噪声,又称为带选噪声;“口哨”噪声就是一种窄带噪声;
二、浅谈降噪技术
之前在漫游语音识别技术的文章里我跟大家讲到过一些降噪处理技术,像小波变换降噪法、谱减法、自适应噪声抵消法、声音滤波器这几种常见的语音降噪方法,其实就是消除噪声信号中的无规则波纹信息对声学信号所固有的声学特性的影响,使得提高待分析的声音信号质量,在此就不过多重复阐述了,具体请大家查看之前的文章。除此之外还有像语音增强生成对抗网络这样最新的语音降噪及增强模型。其实降噪和增强语音紧密相连,目的都是为了使待分析信号能被更好的识别出来。以下是小王学长自己处理的结果,便于增加大家的理解。
语音增强通常作为语音识别前的预处理部分阶段,旨在去除掉混杂在真实语音的背景噪声,进而提高语音的信噪比及语音的纯净度,对后续的语音识别等有较好的促进作用,具体实例如图一所示。但是在实际应用中,背景噪声复杂多变,给准确的语音增强带来了巨大挑战。近年来,随着人工智能的发展,特别是生成对抗网络(Generative Adversarial Network, GAN)模型的不断改进,语音增强技术有了很大提升。
同时跟大家分享一篇 ICASSP-2020 的论文《CP-GAN: Context Pyramid Generative Adversarial Network for Speech Enhancement》,该论文提出了一种利用上下文信息的金字塔型生成对抗网络(CPGAN, Context Pyramid Generative Adversarial Network)用于完成语音增强任务。
建议感兴趣的同学拜读一下~~~
通过以上阅读想必大家对降噪技术已经有了一定的了解,大家有任何疑问和问题都可以跟小王学长留言交流!
作者介绍
王凯,计算机在读硕士,两年音视频学习开发经验,主攻音频语音识别方向,对 NLP、深度学习、神经网络、数学建模、音视频编解码技术有一定研究和实践经验。
版权声明: 本文为 InfoQ 作者【攻城先森】的原创文章。
原文链接:【http://xie.infoq.cn/article/d25545697cd8db62b86c70a97】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论