写点什么

语音信号处理 6:语音信号的线性产生模型

作者:轻口味
  • 2021 年 12 月 23 日
  • 本文字数:1921 字

    阅读完需:约 6 分钟

语音信号处理6:语音信号的线性产生模型

语音是由气流激励声道,最后从嘴唇或鼻孔,或同时从嘴唇和鼻孔辐射出来而形成。传统的基于声道的语音产生模型,就是从这一角度来描述语音的产生过程。它包括激励模型、声道模型和辐射模型,这三个模型分别与肺部的气流和声带共同作用形成的激励、声道的调音运动及嘴唇和鼻孔的辐射效应一一对应。它们之间的关系可以用下图表示。


图 语音信号产生系统线性模

1. 激励模型

研究证实:发不同的音时,激励的情况不同。这些不同大致可分为两大类:在发浊音时,气流通过绷紧的声带,对声带进行冲击而产生振动,使声门处形成准周期的脉冲串。声带的绷紧程度不同,振动的频率也不同,即基音频率不同。由于人的声带情况有所差异,因此具有不同的基音周期。应该提醒注意的是,浊音不仅包括所有的元音,也包括一些浊辅音。这样,在发浊音时声带的不断张开和关闭产生的脉冲波,类似于斜三角形的脉冲。此时的激励源就是一个以基音周期为周期的斜三角形的脉冲串。单个的斜三角形脉冲可以用下式表达:



其中,N1 为斜三角波上升部分的时间;N2 为其下降部分的时间。如果将上述函数变换到频域可以看出,它相当于一个低通滤波器。因此通常将它表示成 z 变换的全极点模型形式:



其中,g1 和 g2 都接近 1。这样,斜三角波可以看作是加权的单位脉冲经过上述的低通滤波器的输出。而单位脉冲可以表示为下面的 z 变换形式:



其中,Av 是调节浊音的幅值或能量的参数。因此整个激励模型可以表示为


在发清音时,声带处于松弛状态,不发生振动,气流通过声门直接进入声道,所有的清辅音都属于这种情况。无论是擦音还是塞音,声道都被阻碍形成湍流,所以激励信号相当于一个随机白噪声。实际上可以用均值为 0、均方差为 1,并在时间或幅值上为白色分布的序列来表示。应该指出,单纯地将语音信号分成受周期脉冲激励和受噪声激励两种情况,与实际情况不完全符合。有时即便将两种激励情况按照一定的比例叠加,也不能刻画某些语音,如浊擦音。为了更好地模拟激励信号,有人提出在一个基音周期中用多个斜三角波脉冲的方法。此外,还有用多脉冲序列和随机噪声序列的自适应激励的方法等。

2. 声道模型

发不同性质的声音时,声道的情况是不同的。大致可以将这些情况分为两大类:①发元音的情况——这时声道的口腔为稳定的某种形状的谐振腔,由声门来的准周期脉冲波激励声道而产生响应,所有的单元音、复元音及复鼻尾音的元音部分都属于这种情况;②发辅音的情况——此时又可以分为塞音、擦音、鼻音等情况。发塞音时,声道的某部分构成阻碍完全封闭,使声门来的激励波在此处形成高压湍流,然后突然开放发出声音。而发擦音时,声道的某部分构成未完全封闭的阻碍,使激励波在此处形成高速湍流,与该处摩擦而发出声音。发鼻音时,软腭下垂,鼻腔参加谐振响应。对于声道的数学模型有两种观点:一种是将声道看作是由多个不同截面积的声管串联而成的系统,称为声管模型;另一种是将声道视为一个谐振腔,共振峰就是这个腔体的谐振频率,从这个角度出发来描述声道的模型,即为共振峰模型。由于人耳听觉的柯蒂氏器官的毛细胞是按着频率感受来排列其位置的,所以共振峰模型很有效,经常被使用。实践表明:用前三个共振峰来代表一个元音就足够了。对于较复杂的辅音或鼻音,大概要用五个以上的共振峰才行。一般情况下,可以用一个如下式的全极点模型来刻画共振峰特性。


其中,p 为全极点滤波器的阶,一般在 8 到 12 范围内取值,它的每一对极点对应一个共振峰;ai 为声道模型参数,它随声道的调音运动不断变化。声道的惯性使这些参数变化的速度受到限制。一般在 10 到 30ms 的时间间隔内,认为这些声道参数保持不变,这也是语音信号短时分析的理论依据之一。对一些鼻音和摩擦音,声道传输函数中也包含一些零点。对于这种情况,可以在上式中引入若干个零点,但这时的模型将变得相对较复杂。这种情况也可以通过适当提高阶数 p,使得全极点模型可以更好地逼近具有零点的传递函数。

3. 辐射模型

声道的终端是口和唇。从声道输出的是速度波,而语音信号是声压波,两者的倒比称为辐射阻抗,可以用它来表示口唇的辐射效应,也包括头部的绕射效应等。从理论上推导这个阻抗是有困难的,但是如果认为口唇张开的面积远小于头部的表面积,则可以推导出辐射阻抗公式如下:


其中,


,这里 a 是口唇张开时的开口半径,c 是声波的传播速度。由辐射引起的能量损耗正比于辐射阻抗的实部,并且研究表明,口唇端的辐射效应在高频段较为明显,而在低频段影响较小,因此可以用一个高通滤波器来表示辐射模型,例如:


其中,r 接近 1。在实际信号分析时,常采用这样的预加重技术。即在采样之后,插入一个一阶高通滤波器。在语音合成时再进行“去加重”处理,就可以恢复原来的语音。由上面所述,完整的语音信号产生模型可以用三个子模型串联而成,其传递函数为:



发布于: 17 小时前
用户头像

轻口味

关注

🏆2021年InfoQ写作平台-签约作者 🏆 2017.10.17 加入

Android、音视频、AI相关领域从业者。 邮箱:qingkouwei@gmail.com

评论

发布
暂无评论
语音信号处理6:语音信号的线性产生模型