语音信号处理 14:语音信号的特征应用
语音信号除了有时域特征、频域特征,还有一些如共振峰和基音周期等固有特征。
1. 基音周期估计
基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒数。由于它只是准周期性的,所以只能采用短时平均方法估计其周期,这个过程也常称为基音检测(pitch detection)。
基音周期是语音信号最重要的参数之一,它的提取是语音信号处理中一个十分重要的问题,尤其是对汉语更是如此;因为汉语是一种有调语言,基音的变化模式称为声调。声调携带着非常重要的具有辨意作用的信息,有区别意义的功能。根据加窗的短时语音帧来估计基音周期,在语音编解码器、语音识别、说话人确认和辨认,以及生理缺陷人的辅助系统等许多领域都是重要的一环。自进行语音信号分析研究以来,基音检测一直是一个重点研究的课题,已经提出了很多方法,然而这些方法都有它们的局限性。迄今为止,尚未找到一个完善的可以适用于不同的说话人、不同的要求和环境的基音检测方法。
基音检测的主要困难表现在:
语音信号变化十分复杂,声门激励的波形并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧是很难判定它应属于周期性或非周期性,从而也就无法估计出基音周期;
要从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事,例如声道共振峰有时会严重影响激励信号的谐波结构;
在浊音段很难精确地确定每个基音周期的开始和结束位置,这不仅因为语音信号本身是准周期的,也是因为波形的峰受共振峰结构、噪声等影响;
基音周期变化范围较大,从低音(男声)80Hz 直到(女孩)500Hz,也给基音周期的检测带来了一定的困难。另外,浊音信号可能包含有 30 ~ 40 次谐波分量,而基波分量往往不是最强的分量。因为语音的第一共振峰通常在 300 ~ 1000Hz 范围内,这就是说,2 ~ 8 次谐波成分往往比基波分量还强。丰富的谐波成分使语音信号的波形变得很复杂,给基音检测带来困难,经常发生基频估计结果为实际基音频率的二、三次倍频或二次分频的情况。
基音检测的方法大致可分为三类:
波形估计法,直接由语音波形来估计基音周期,分析出波形上的周期峰值,包括并行处理法、数据减少法等;
相关处理法,这种方法在语音信号处理中广泛使用,这是因为相关处理法抗波形的相位失真能力强,另外它在硬件处理上结构简单,包括波形自相关法、平均振幅差分函数法(AMDF)、简化逆滤波法(SIFT)等;
变换法,将语音信号变换到频域或倒谱域来估计基音周期,利用同态分析方法将声道的影响消除,得到属于激励部分的信息,进一步求取基音周期,比如倒谱法。虽然倒谱分析算法比较复杂,但基音估计效果较好。各种方法的对比见表 1 所示。
2. 共振峰的估计
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中也利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数。共振峰信息包含在语音频谱包络中,因此提取共振峰参数的关键是估计语音的频谱包络,一般认为谱包络中的最大值就是共振峰。与基音检测类似,共振峰估计也是表面上看起来很容易,而实际上又受许多问题困扰。这些问题包括以下几类。
虚假峰值。在正常情况下,频谱包络中的极大值完全是由共振峰引起的。但在线性预测分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加 2~3 个额外的极点,有时可利用这些极点代表虚假峰值。
共振峰合并。相邻共振峰的频率可能会靠得太近而难以分辨。这时会产生共振峰合并现象,而探讨一种理想的
能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。
高音调语音。传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音(如女声和童声)的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络本身的估计就不够精确。即使采用线性预测进行频谱包络估计也会出现这个问题。在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。
几种共振峰提取方法:
基于线性预测的共振峰求取方法
求根法
选峰法
倒谱法
版权声明: 本文为 InfoQ 作者【轻口味】的原创文章。
原文链接:【http://xie.infoq.cn/article/dda0e007277b6fd4149a807c2】。文章转载请联系作者。
评论