写点什么

语音信号处理 4:语音的声学特征

作者:轻口味
  • 2021 年 12 月 19 日
  • 本文字数:2169 字

    阅读完需:约 7 分钟

语音信号处理 4:语音的声学特征

语音是以声波的方式在空气中传播。声波是一种纵波,它的振动方向和传播方向是一致的。声波有一些物理意义上的描述,而从语音学角度,它具有一些其他的特征。

1 声波的物理描述

声波从声源向四面八方传播,它的频率(frequency)指在单位时间内声波的周期数。而波长(wave length)指声波中两个波峰之间相隔的时间距离。波长的计算是用声波的传播速度/声波的频率。频率越高,波长越短;频率越低,波长越长。从物理描述上看,声波具有两个参数:一个是频率;另一个是振幅(amplitude)。声音的频率与声音的音高有关。振幅则与声音的响度(loudness)有关。声音的频率高,声音就高;声音的频率低,声音就低。在荒郊野外大声呼喊,必然振幅大,响度大;在近处低声交头接耳,必然振幅小,响度小。而频率和振幅之间没有必然的关系。除了用频率和波长这些物理概念来描述声音外,通常的声音还有复合音(complex tone)和纯音(pure tone)之分。音叉发出的音是单纯声波,哨子发出的音也是纯音。笛子低音区发出的声音,其中一部分也是纯音。在纯音中仅仅有基音而没有倍音,而所谓倍音指该语音频率是基频的整数倍。一般的声音是包含了复合声波的声音。例如吉他的任何一根弦,它的声波中除了基频外,还有许多倍音。一个元音也是复合音。总的来说,对于大部分声音,并非只有一个基频,而是有若干个倍音。在一串声波中,基频的能量最高,力度最强,其他倍音的能量逐渐减低,力量逐渐减弱,以致最后消失。在相当长的一段时期内,人们只知道声音与声音之间有区别,却不知道其中的原因。法国物理学家傅里叶发现了各个声音之间的区别在于和弦(chord)的不同。之所以能够听出每种乐器都有自己特殊的音色,就是因为它们之间的和弦不同。一个声音的基音与倍音共同组成这个声音的和弦。其中频率最低的和弦是第一和弦,其他的依次是第二和弦、第三和弦、第四和弦,乃至更多的和弦。每个复合音都有一连串的倍音,但是并非每个倍音都同样那么明显。事实上,只有一部分倍音比较明显,而其余的倍音会被抑制。总之,一个复合音除了基频外,同时还有若干个倍音。每个复合音突出的倍音会有所不同。在复合音中,基频的频率最低,但振幅最大。其余各个倍音的能量逐渐地减少,振幅也就逐渐减小。

2 共振峰及其与元音舌位的关系

声带产生的声音周期较短、阻尼高,其中包含的频率很多,即声带振动除产生基频外,还会有倍音产生。基频与倍音的频率,取决于肺部用力多少以及声带紧张度如何。这些复合音通过口腔共鸣,有的频率得到加强,有的频率消失。口腔中可以调节的器官较多,包括舌、上腭以及唇的变化都可能影响口腔的形状和阻尼大小,使不同的频率共鸣出来。当把声道看作一个发音的腔体时,激励的频率达到它的固有频率,则声道会以最大的振幅来振荡,即产生共鸣。一般把这个频率称为共振频率(formant frequency),简称共振峰(formant)。


共鸣反应与共鸣器的质量有关,声波碰到硬的东西会反弹回来。如果把球扔到木板上,由于木板比较硬,球会反弹回来。如果把球扔到软椅靠背上,由于椅背较软,反弹力小,就会抵消一部分冲击力。口腔里面的肌肉是很软的物质,声波在口腔肌肉上的反弹力没有那么强,口腔肌肉将吸收去一部分声波能量。因此,口腔作为一个共鸣器,它有较大的阻尼。无阻尼的共鸣器,只对一个频率产生共鸣反应,共鸣器阻尼大,则会对比较多的频率产生共鸣反应。通常,不同的元音是由于口腔共鸣的不同形状造成的。包含口腔在内的声道是一个分布参数系统,它有许多自然谐振频率(在这些频率上其传递函数具有极大值),所以声道是一谐振腔,它放大某些频率成分而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。讲话时,舌和唇连续运动,使声道常常改变外形和尺寸,随即改变谐振频率。如果声道的截面是均匀的,谐振频率将发生在


其中,c 为声速,在空气中 c=340m/s;L 为声道的长度;n 为谐振频率的序号。如果 L=17cm,则谐振频率发生在 500Hz 的奇数倍上,即 F1=500Hz,F2=1500Hz,F3=2500Hz 等。元音 e/ə/发音时声道的截面最接近于均匀断面,所以谐振频率也最接近上述值。而发其他音时,声道的形状很少是均匀断面的,这些谐振点之间的间隔不同。但声道的谐振点的平均密度仍然大约每 1kHz 有一个谐振点。上述谐振频率就是通常所说的共振峰。其中共振峰特性和元音的音色紧密相关。一般将舌位高度分为高、中、低,舌位的前后分为前、中、后,则元音的音色和舌位的关系如下图所示。



图 单元音发音舌位示意图对于元音舌位与共振峰的关系,简单地说,元音舌位的“高、低”与第一个共振峰有关,舌位的“前、后”与第二个共振峰有关。用元音的前两个共振峰频率为坐标轴来表示各个元音所在位置的二维图称为声学元音图,如下图所示。其中坐标轴是非线性的,以使各元音区域尽可能分离。



从声学的角度看元音,每个元音在口腔中所占有的位置是与元音的共振峰频率有对应关系的。一个元音的第一共振蜂频率越低,这个元音的舌位就越高。一个元音的第一共振峰的频率越高,这个元音的舌位就越低。一个元音的第二共振峰频率越低,这个元音的舌位就越后。一个元音的第二共振峰的频率越高,这个元音的舌位就越前。不同人发同一个元音时,各人发音的共振峰的频率不会绝对相同。因此,它们的共振峰频率位置不会完全重叠,而会有差异。但这些差异是同一个元音的共振峰频率位置范围内的差异,人耳和大脑不计较这些差异。

发布于: 1 小时前阅读数: 5
用户头像

轻口味

关注

🏆2021年InfoQ写作平台-签约作者 🏆 2017.10.17 加入

Android、音视频、AI相关领域从业者。 邮箱:qingkouwei@gmail.com

评论

发布
暂无评论
语音信号处理 4:语音的声学特征