语音信号处理 4:语音信号的产生之语音的发音器官
最近在系统学习研究信号系统,主要以语音信号为主,今天总结学习了语音的发音器官和原理。
语音信号产生过程分为如下几个阶段:
首先,说话人在头脑中产生想要用语言表达的信息,然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、韵律、响度、基音周期的升降等表示出来。一旦这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带振动,并塑造声道的形状以便可以发出编码中指定的声音序列。神经肌肉命令必须同时控制调音运动中涉及的各个部位,包括唇、颚、舌头,以及控制气流是否进入鼻腔的软腭。
一旦产生了语音信号,并将这些信息传递到听者时,语音的感知过程也就开始了。听者内耳的基底膜,首先对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,这一过程和后面将要介绍的特征提取的过程有些类似。作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并由此产生具有语义的信息。
人类用来产生语音的发音器官自下而上包括肺部(lung)、气管(trachea)、喉(larynx)、咽(pharynx)、鼻腔(nasal cavity)、口腔(oral cavity)和唇(lip)。它们作为整体形成了一个连续的管道,如下图所示。其中喉部以上的部分称为声道,随着发出语音的不同其形状是变化的,喉的部分称为声门。肺是胸腔内的一团有弹性的海绵状物质,它可以储存空气。通过正常的呼吸系统空气可以进入肺部,在说话时腹肌收缩使横膈膜向上,挤出肺部的空气,形成气流。由肺部呼出的气流是语音产生的原动力。气管将肺部排出的气流送到咽喉。喉部位于气管的上端,由四块软骨组成,包括甲状软骨、杓状软骨、环状软骨和会厌软骨。其中甲状软骨突出在颈部,称为喉结。在喉部从喉结到杓状软骨之间的韧带褶,称为声带(vocal cords)。喉部的声带既是一个阀门,又是一个振动部件。一般声带的长度为 10~14mm。呼吸时,左右声带打开,说话时声带合拢。两个声带之间形成一个开闭自如的声门(glottis),声门的开启和关闭是由两个杓状软骨控制,说话时合拢的声带受声门下气流冲击而张开;由于声带具有一定的韧性,可以迅速闭合。当气流通过气管和支气管经过咽喉时,收紧的声带由于气流的冲击产生振动,不断地张开和闭合,使声门向上送出一连串喷流。这时的气流被截断成准周期的脉冲,一般用非对称的三角波表示。声带的振动取决于其质量。质量越大,每秒振动次数越小;反之,质量越小,声带振动越快。声带振动频率决定了声音的音高。声带振动产生声音,这是产生声音的基本声源,称为声带音源(glottal source)。它被进一步调制后经过咽喉、口腔或者鼻腔。口腔的开合、舌头的活动和软腭的升降等发音动作,形成了不同的声道构形,从而发出不同的语音。最后,由嘴唇开口处将语音辐射出去。
声带每开启和闭合一次的时间就是基音周期(pitch period),它的倒数称为基音频率(pitch frequency)。基音频率取决于声带的大小、厚薄、松紧程度,以及声门上下之间的气压差的效应等。一般基音频率越高,声带被拉得越长、越紧、越薄,声门的形状也变得越细长,而且这时声带在闭合时也未必是完全闭合的。基音频率最低可达到 80Hz,最高可达到 500Hz。它的范围随发音人的性别、年龄及具体情况而定。老年男性偏低,小孩和青年女性偏高。基音频率不仅是反映说话人特点的一个重要参数,而且基音频率随时间的变化模式,也反映了汉语语音中的声调变化。声道由咽腔、口腔和鼻腔三个空气腔体组成,它是一根从声门延伸至口唇的非均匀截面的声管,其外形变化是时间的函数。声道是气流自声门声带之后最重要的、对发音起决定性作用的器官,发出不同音时其形状变化是非常复杂的。成年男子声道的平均长度约 17cm,而声道的截面积取决于其发音器官的位置。发音过程中声道的截面积由舌头、唇、上颚、小舌的位置决定,具体为 0~20cm2。其中咽腔是连接喉和食道与鼻腔和口腔的一段管子。在说话时咽腔的形状会发生变化,它和口腔一起使得声道的形状变化多端,因而能发出较多不同的声音。鼻腔从咽腔开始到鼻孔为止,长度约为 101mm,鼻中隔贯穿全长并将鼻腔分为两个部分。当发鼻化音时,软腭下垂,鼻腔与口腔发生耦合产生语音中的鼻音;如果它上抬,则完全由口腔发音。口腔是声道中最重要的部分,它的大小和形状可以由舌、唇、牙齿和腭的变化而调整。舌头是最活跃的,它的尖部、边缘和中间都能自由的活动,并且整个舌体也可以上下前后活动。由于它的重要性,语音中元音的发音就是以舌的位置来分类的。双唇位于口腔的末端,它也可以活动成展开的或是圆形的形状,在发音过程中起着很重要的作用,所以发音方法中也标明了是否圆唇的发音。齿的作用是发齿化音的关键,而腭中的软腭如前所述,是发鼻音与否的阀门。此外,硬腭以及齿龈也参与了发音的过程。可以将上述声音产生机制的原理用下图表示。
在发音过程中,肺部与相连的肌肉相当于声道系统的激励源。当声带处于收紧状态时,流经的气流使声带振动,这时产生的声音称为浊音(voiced sound),不伴有声带振动的音称为清音(unvoiced sound)。当声带处于放松状态时,有两种方式能发出声音。其中一种方法是通过舌头,在声道的某一部分形成狭窄部位,也称为收紧点,当气流经过这个收紧点时会产生湍流,形成噪声型的声音。这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音。另一种方法是声带处于松懈状态,利用舌头和嘴唇关闭声道,暂时阻止气流,当压力非常高时,突然放开舌与唇,气流被突然释放产生的短暂脉冲音。对应于声道闭紧点的不同位置和声道的形状,形成不同的爆破音。为了发出各种各样的声音,需要调整声道的形状,称为调音(articulation)。声道各部位的动作称为调音运动(articulation movement)。调音用的声道的各部分器官称为调音器官(articulation organ),包括舌、颚、唇和嘴等声道中可以自由活动的部分。在调音器官中,因调音而产生的声道固定部位的狭窄位置称为调音点(place of articulation)。声带的状态,包括它的位置、形状、各个不同的调音器官的大小随时间变化的情况决定产生不同音色的语音。这是因为不同的声道形状具有不同的传递特性,由于共鸣的作用,能量按着频率发生强弱的变化,导致产生的语音之间存在各种差异。由上面所述可以看出,声道是气流自声门声带之后的最重要,也是对发音起着决定性作用的器官。用 X 光照相技术,可以清楚地显示出发各种语音时声道的形状。虽然声道的变化是非常复杂的,但是,如果从声学观点来看,可以把它拉直而完全不影响其声学特性。这样,人们可以从物理学的观点来分析声道的贡献,并可以方便地用模型来描述它。
版权声明: 本文为 InfoQ 作者【轻口味】的原创文章。
原文链接:【http://xie.infoq.cn/article/207f868eb362c72d9cad06a16】。文章转载请联系作者。
评论