语音信号处理 4:语音信号在时域和频域的表示
1 语音信号的时域波形
在进行语音信号数字处理时,最先接触、最直观的是它的时域波形。通常是将语音用话筒转换成电信号,再用 A/D 转换器将其转换成离散的数字采样信号后存入计算机内存中。下图(a)是一个女声说的“开始”的时域波形,语音数据是在实验室环境下用普通麦克风录制的。采样频率为 16kHz,每个采样点用 16 位进行量化。图中横轴为时间,纵轴表示信号的幅度。从图中虽然无法辨别语音波形的细节,但可以看出语音能量的起伏,以及语音信号随时间变化的过程。下图(b)是将“开”的元音部分/ai/拉长后的形状。可以看出,这段语音信号具有很强的准周期性,并具有较强的振幅。它的周期对应的频率就是基音频率。下图(c)是/k/辅音的展开图。可以看出,辅音波形类似于白噪声,并且具有很弱的振幅。
图 语音信号“开始”的时域波形及其展开图
3.2 语音信号的频域波形
时域波形虽然简单直观,但对于语音这样复杂的信号而言,一些特性要在频域中才能体现出来;并且无论是从发音器官的共振角度,还是从听觉器官的频率响应角度来看,频谱都是表征语音特性的基本参数。其中共振峰就是一个典型的频域参数,它可以决定信号频谱的总体轮廓或谱包络(spectrum envelope)。对于声道而言,它的共振频率不止一个,一般元音可以有 3~5 个共振峰。语音的发音过程中,声道通常都是处于运动状态,这个运动状态的时变过程比振动过程要缓慢得多,因此一般假设语音信号是一种短时平稳信号,在一个很短的时间内(10~30ms)是相对平稳的,但在长时的周期中语音信号的特性会发生变化,这种变化的不同决定了产生语音的不同。根据语音信号的这种短时平稳的特点,在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。下图给出了“开始”中/ai/的频谱特性。其中横轴表示频率,变化范围是采样频率的一半。纵轴表示该频率的强弱,以分贝(dB)为单位。这里的短时分析采用汉明窗,进行频谱分析的窗长为 512 个采样点。
图 “开始”中/ai/的频谱特性从图中可以看出,第一个频谱的峰值点在 250Hz 左右,它反映的是基频。第一共振峰在 500Hz 左右,第二共振峰在 1000Hz 左右,第三共振峰在 1500Hz 左右。
3.3 语谱图
前面的频谱分析只能反映出信号的频率变化,而不能表示信号的时间变化特性。由于语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续地进行这种频谱分析,可以得到一种二维图谱,它的横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量。这种时频图称为语谱图(spectrogram)。其中能量功率谱具体可以表示如下:
其中,
,w[n]是一个长度为 2N+1 的窗函数。
X(n,ω)表示在时域以 n 点为中心的一帧信号的傅里叶变换在ω处的大小。在实际情况下,一般不用对每个可能的频率和时间计算相应的能量。对于频率轴,一般计算 2N+1 点就足够;对于时间轴,取 N 个点也足够。图 2-7 给出了语音“开始”的语谱图。其中横轴表示时间(n),纵轴表示频率(ω),颜色的深浅表示在(n,ω)处的能量大小,一般用能量的对数表示,即 log(1)(Px(n,ω))。语谱图可以根据带通滤波器的宽窄分为宽带语谱图和窄带语谱图。宽带语谱图的频率分辨率通常取为 300 到 400Hz;时间分辨率为 2 到 5ms。窄带语谱图的频率分辨率为 50 到 100Hz,时间分辨率的长度为 5~10ms。下图(a)和(b)分别是“开始”的宽带语谱图和窄带语谱图。
图 语音“开始”的宽带语谱图和窄带语谱图下面分别从元音和辅音的角度,说明它们在语谱图中的具体表现出的特性。汉语元音一类的浊音是由声带的准周期振动,经声道共鸣调制,由口鼻辐射出来。不同元音的音色反映在不同的频谱结构中。各元音音色上的差异,可以用前三个共振峰频率来表示。对元音,从其宽带语谱图上可以看出,语谱图呈现出垂直的条纹,由于宽带语谱图滤波器冲激响应的宽度大约与基音周期相同,因此这些垂直条纹的间隔时间即为基音周期。在窄带语谱图中,可以看到元音的共振峰频率及其随时间的变化,并可以看到浊音区的各个谐波。其中共振峰表现为较粗的黑色带,称为“横杠”(bar),该横杠随时间起伏变化。而各个谐波表现为横向的波纹。辅音一般都比元音短促,而且能量小,发音时声道变化剧烈,其特性往往受后续元音的影响,因此分析起来要比元音复杂一些。在清音期间,看不到浊音周期呈现的垂直条纹,而表现的是细而密的杂乱的纹理,这可以说明清音的类白噪声激励的性质。一般可以用这样几种样式来表示辅音:直切线样式、间断区样式、噪声样式。在发清塞音时,声带是不振动的。在塞音开始的时候必然有一个宁静点。这时在语谱图上会有一条笔直的切线。看到这条切线就可以断定此处是塞音的开头。上图中 100~200ms 之间有一条类似的切线,就是因为“开始”中的起始音/k/是一个清塞音。擦音和送气音是一片乱纹。这些乱纹在某些频率区域会比较集中,对应的区域称为强谱区,这是声道对噪声源共鸣作用的结果。不同的辅音,强谱区的分布是不同的。另外,在连续发音时,词与词之间或音节与音节之间,声带往往有简短的宁静。特别是一个音节之后,如果是一个清塞音开头,则两个音节之间会出现一个“间隙”,形成一个间断区。在发清音时,一般声带是不振动的,因此清音的语谱和元音的语谱当然不同。在语谱图上,清音的图谱比较含混,看起来有点杂乱。另外,当一个辅音与一个元音拼接,例如/d/和/a/拼成/da/的时候,/d/的发音部位是舌头顶齿龈,气流突破此障碍后发音器官迅速向发/a/的部位移动;与此同时,声带开始振动,这样就出现了声带波的形状迅速变化的声带的激励,反映在语谱图上就是弯向元音段的共振峰弯横杠,即所谓的过渡音特性。同一辅音与不同元音拼接时,过渡音特性的上升和下降各有不同,但其延长线会合于一点,这就是该辅音的音轨。不同的辅音,其过渡特性和音轨频率也不尽相同。在辅音的听辨上,过渡音段的信息是很重要的。图 2-7 分析的是一种基本的语谱图。类似地,还有一种 Mel 语谱图,它可以表示出 Mel 滤波器的能量随着时间的变化。在 Mel 语谱图中,横轴为帧号,纵轴表示 Mel 频带滤波器号,每一个像素点的深浅表示该帧信号在该滤波器上输出的能量大小。这时 Mel 功率谱表示为
其中,Px(n,k)表示第 n 个分析窗的 Mel 频谱的第 k 个分量;mk(j)表示第 k 个 Mel 滤波器冲激响应的 DFT 变换的第 j 个系数;X(n,j)表示语音信号的第 n 个分析窗的 DFT 变换的第 j 个点。
版权声明: 本文为 InfoQ 作者【轻口味】的原创文章。
原文链接:【http://xie.infoq.cn/article/7a1deae6978a9fe16eba0d154】。文章转载请联系作者。
评论