Opus 从入门到精通 (七)Opus 编码基础之认识声音

关注

发布于: 刚刚

前面我们分析完 Opus 的编解码 api 使用,封装原理等,接下来我们准备分析 Opus 编码原理.Opus 编码是一个复杂的工作,我们需要做一些基本铺垫,包括认识声音,压缩编码基础.认识音频有助于我们了解音频特征,不仅对语音有助于我们理解编码技术,同时在语音识别,TTS 等场景提供帮助

音频信号及其心里特征

人类能够感知客观世界的两个重要途径就是听觉和视觉,而听觉所感受到的信息就是声音.声音是一种波,其本质是机械振动或气流扰动引起周围弹性媒介发生波动饿现象.声波可以在空气中传播,也可以在液体和固体中传播.

声压级

为了定量描述声音的强弱,人们采用了多种描述方式,其中声压和声压级就是其中的两种形式.声压用 P 来表示,它是指在声场中某处由声波引起的压强的变化值,单位是“帕斯卡”(Pa)。当然声压越大,声音也就越大。但是人耳对声音强弱的感觉与声压的大小并非成线性关系,而是大体上与声压有效值的对数成正比。为了适应人类听觉的这一特性,将声压的有效值取对数来表示声音的强弱,这种表示方式称为声压级,用 SPL 表示,单位是“分贝”(dB).它们的表达式如下: $S P L = 20 l g \frac{P r m s}{P r e f}$

在上式中,Prms 是计量点的声压有效值,Pref 是人为定义的零声压级的参考声压值,国际协议规定 Pref=2 乘以 10 的负 5 次 Pa(帕),这个值是一般具有正常听力的年轻人对 1 kHz 的单一频率信号(称为简谐音)刚刚能察觉到它的存在时的声压值。在电声工程中通常用声级计来测量声压级的大小。应该注意的是,无论是声压还是声压级都属于客观物理量,它们都是对客观事物的真实描述。

人对于声音频率的感觉表现为音调的高低,在音乐中简称音高。音高与声音频率的关系也大体上呈对数关系。实际上音乐里的音阶就是按频率的对数取等分来确定的。在音乐中每增高或降低一个八度音,其声音的频率就升高或降低一倍,十二平分律等程音阶正是在一个倍频程的频率范围内按频率的对数分成十二个等份划分音阶的,其中相邻的两个音阶称为一个半音,相隔的一个音称为一个全音。

人类的听觉特征决定了人对同样强度,但不同频率的声音主观感觉的强弱是不同的,即人类听觉的频率响应不是平直的。对于高于 20 kHz 和低于 20Hz 的声音,无论其强度多高,一般人都不会听到。因此可以认为 20 Hz~20 kHz 是人类的听觉频带,而 20Hz~20kHz 的信号称为“音频信号”,高于 20kHz 的声音称为超音,低于 20Hz 的声音称为次音

此外在音频范围内,人对相同声压级而不同频率声音的敏感程度也不同,人耳对 3kHz~5kHz 的声音信号比高频和低频声音信号更敏感,也就是说,幅度(声压级)很低的中频信号都能被人耳听到,而低音或高音信号能被人耳听到的幅度要高得多。因此,为了更全面地表示人类的听觉频响特性,人们又定义了响度级这个主观物理量,单位用“方”(Phon)表示,响度级数是以 1 kHz 信号的声压级数定义的。对应同一响度级上的不同频率信号所对应的声压级也不同,但对人耳来说其声响的程度是相等的,因此将这些具有等响度的不同频率的点连接起来构成的一条条曲线被称为等响度曲线,如图所示。这些曲线是对大量具有正常听力的年青人进行大量测量并取其平均值得到的.

曲线 0 代表可听阈。低于此线之下不可闻。
响度级低时，各频率声压级相差很大。可差 50dB 以上。
当响度级别较高时，等响曲线近似水平(高保真放声在高声时，高低音都丰厚)。
在高频段曲线间隔相同，说明声压级变化时，响度级变化几乎相同。在低频段等响曲线间隔小，等响曲线对声压变化很灵敏。如 80Hz，声压从 60dB~80 dB，响度从 30~70 方。响度级只反映不同频率的声音的等响感觉，不能表示一个声音比另一个声音响多少倍的主观感觉。响度级为 0 方的等响度曲线一下的声音一般为听不见的,因此该曲线可称为闻阈或绝对听阈,它是重要的心理学声学模型之一,也是音频信号压缩的重要依据.当声音响度超过 120 方时,人耳会感到痛痒,因此 120 方的等响度曲线可称为痛阈.

响度：是描述声音大小的主观感觉量，响度的单位是"宋"(sone)。

定义：1000Hz 纯音，声压级为 40 dB 时的响度为 1 宋；2 宋的声音是 40 方声音响度的 2 倍；4 宋为 40 方声音响度的 4 倍。多次人平均，响度级每增 10 方，响度增加一倍。也就是说，声压级增加 10dB，响度增加一倍。如：10 把小提琴同时演奏，比一把声强增加 10 倍，相应声压级增加 10 dB，响度级也增加了 10 方，而主观响度只增加 1 倍。人耳对响度的感觉随声压级变化。声压级低时，分辨率差；声压级高，分辨率提高。声压级在 50dB 以上，人耳的声压、响度变化最小，大约 1dB。小于 40 dB 时，声压级要 1~3dB 以上才觉察出来。一个乐队演奏时，假如低、高音都以 100 dB 的声压级录音，此时等响线曲差不多平直，低高音听起来有差不多的响度。如果重放时声压级较低，假如 50dB，这时 50Hz 的低音刚能听到，而 1000Hz 的声音却有 50dB，高音也同时听上去很弱，结果原有的音色都改变了。这时要想让 50Hz 的声音听起来与 1000Hz 的声音有大致相同的响度，必须将其提升 20 dB 左右。因此声音以低于原始声(录音时)的声压级重放，必须通过均衡器(Equalizer)来提升低音和高音以保持原有音色平衡。

掩蔽效应

实验证明,声场中的一个强音能掩蔽与之同时发生的附近频率的弱音,这种现象称为掩蔽效应.也就是说,一种声音的出现可能是另一种声音难于听清.例如,在声场中有一个 1kHz 的简谐音,如果此时有一个 1.1kHz 而幅值比前者低 18dB(分贝)的简谐音,则人们只能听到 1kHz 的声音.

掩蔽效应是另一个重要的心理声学模型,它与绝对听阈相呼应,在音频数据压缩中起到了重要作用.下图描述了频率为 1kHz,声压级为 60dB 的声音信号对其他频率信号的掩蔽效应曲线.图中的虚线为音频信号的绝对听阈曲线.从图中可以可出 1kHz 附近信号的绝对听阈被这 1kHz 的强音改变成了尖锋状,也就是说,此时 1kHz 附近频率的信号的幅值必须高于尖峰状曲线所对应的分贝值时才能被人耳察觉.