写点什么

语音信号的时域分析

作者:轻口味
  • 2021 年 12 月 26 日
  • 本文字数:2326 字

    阅读完需:约 8 分钟

语音信号的时域分析

对信号分析最自然、最直接的方法是以时间为自变量进行分析,语音信号典型的时域特征包括短时能量、短时平均过零率、短时自相关系数和短时平均幅度差等。本文中主要对这些时域的特征及它们的具体应用加以介绍。


典型的语音信号特性是随着时间变化而变化的。例如,浊音和清音之间激励的改变,会使信号峰值幅度有很大的变化;在浊音范围内基频有相当大的变化。在一个语音信号的波形图中,这些变化十分明显,所以要求能用简单的时域处理技术对这样的信号特征给以有效的描述。

1. 短时能量分析

1.1 定义

语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音的能量小得多。语音信号的短时能量分析给出了反映这些幅度变化的一个合适的描述方法。对于信号{x(n)},短时能量的定义如下:



其中,h(n)=w2(n),En 表示在信号的第 n 个点开始加窗函数时的短时能量。可以看出,短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为 h(n),如图 1 所示。



图 1 短时能量的方块图表示


冲激响应 h(n)的选择,或者说窗函数的选择决定了短时能量表示方法的特点。为了反映窗函数选择对短时能量的影响,假设式(1)中的 h(n)非常长,且为恒定幅度,那么 En 随时间的变化将很小,这样的窗就等效为很窄的低通滤波器。很明显,我们要求的是对语音信号进行低通滤波,但还不是很窄的低通滤波,至少短时能量应能反映语音信号的幅度变化。因此出现了窗长选取上的矛盾,这种矛盾将在语音信号的短时表示方法的研究中反复出现。即希望有一个短时窗(冲激响应)以响应快速的幅度变化。但是,太窄的窗将得不到平滑的能量函数。并且窗函数的形状和长短直接影响着短时能量的性质。如果用 xw(n)表示 x(n)经过加窗处理后的信号,窗函数的长度为 N,短时能量可表示为


1.2 应用

短时能量主要有以下几个方面的应用:


  1. 首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大得多;

  2. 其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及连字的分界等。


在语音识别系统中,短时能量一般也作为特征中的一维参数来表示语音信号的能量大小和超音段信息。


短时能量由于是对信号进行平方运算,因而人为增加了高低信号之间的差距,在一些应用场合不太适用。解决这个问题的简单方法是采用短时平均幅值来表示能量的变化,其公式为



这里用加窗后信号的绝对值之和代替平方和,使运算进一步简化。短时平均幅值的实现如图 3-5 所示。



图 2 短时平均幅度的方块图

2. 短时平均过零率

2.1 定义

短时平均过零率是语音信号时域分析中最简单的一种特征。它是指每帧内信号通过零值的次数。对于连续语音信号,可以考察其时域波形通过时间轴的情况。对于离散信号,实质上就是信号采样点符号变化的次数。


如果是正弦信号,它的平均过零率就是信号的频率除以两倍的采样频率,而采样频率是固定的,因此过零率在一定程度上可以反映出频率的信息。


语音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。然而短时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计。短时平均过零率的公式为



式中,sgn[•]是符号函数图 3 给出了短时平均过零率的计算过程。可以看出,首先对语音信号序列 x(n)进行成对处理,检查是否有过零现象,若有符号变化,则表示有一次过零现象;然后进行一阶差分计算,取绝对值;最后进行低通滤波。



图 3 短时平均过零率的计算

2.2 应用

短时平均过零率用于语音信号分析。在发浊音时,声带振动,因而声门激励是频率为基频的声压波,它在经过声道时产生共振。尽管声道有若干个共振峰,但由于声门的影响,其能量分布主要集中在 3kHz 频率范围内;


反之,在发清音时声带不振动,声道的某部分受到阻塞产生类白噪声的激励,该激励通过声道后能量集中在比浊音时更高的频率范围内。因此,浊音时的能量集中于低频段,而清音的能量集中在高频段。由于短时平均过零率可以在一定程度上反映频率的高低,因此在浊音段,一般具有较低的过零率,而在清音段具有较高的过零率,这样可以用短时平均过零率来初步判断清音和浊音。然而这种高低仅是相对而言的,没有精确的数值关系。


另外,可以将短时平均过零率和短时能量结合起来判断语音起止点的位置,即进行端点检测。在背景噪声较小的情况下,短时能量比较准确,但当背景噪声较大时,短时平均过零率可以获得较好的检测效果。因此,一般的识别系统,其前端的端点检测过程都是将这两个参数结合用于检测语音是否真的开始。短时平均过零率的另一个用途是作为语音频域分析的一个中间步骤。方法是不用窗口型的低通滤波器来处理过零,而改用多通道的带通滤波器,这时的输出就是频域的短时平均过零率,如果加上用带通滤波器的短时能量的输出,就可以得到语音信号的频域分析结果。从上面定义出发计算的短时平均过零率容易受到低频的干扰。解决这个问题的一种方法是对上述定义做一个简单的修改,即设立一个门限 T,将过零率的含义修改为跨过正负门限的次数,如图 3 所示。



图 3 门限短时平均过零率


这样计算的短时平均过零率就有一定的抗干扰能力。即使存在小的随机噪声,只要它不超过正、负门限所构成的带,就不会产生虚假过零率。在语音识别前端检测时还可以采用多门限过零率,可进一步改善检测效果。

发布于: 2 小时前
用户头像

轻口味

关注

🏆2021年InfoQ写作平台-签约作者 🏆 2017.10.17 加入

Android、音视频、AI相关领域从业者。 邮箱:qingkouwei@gmail.com

评论

发布
暂无评论
语音信号的时域分析