[数据分析实践]- 音频分析 -BirdCLE-2
数据背景
作为“世界灭绝之都”,夏威夷已经失去了 68%的鸟类物种,其后果可能会损害整个食物链。研究人员利用种群监测来了解本地鸟类对环境变化和保护措施的反应。但岛上的许多鸟类都被隔离在难以接近的高海拔栖息地。由于身体监测困难,科学家们转向了声音记录。这种被称为生物声学监测的方法可以为研究濒危鸟类种群提供一种被动的、低成本的、经济的策略。 目前处理大型生物声学数据集的方法涉及对每个记录的手工注释。这需要专门的训练和大量的时间。因此使用机器学习技能,通过声音来识别鸟类的种类,可以节约大量成本。具体来说,开发一个模型,可以处理连续的音频数据,然后从声音上识别物种。最好的条目将能够用有限的训练数据训练可靠的分类器。
数据介绍
数据集来源:https://www.kaggle.com/competitions/birdclef-2022/data
下载方式:https://github.com/Kaggle/kaggle-api kaggle competitions download -c birdclef-2022
train_metadata.csv
:为训练数据提供了广泛的元数据primary_label -鸟类的编码。可以通过将代码附加到 https://ebird.org/species/来查看有关鸟类代码的详细信息,例如美国乌鸦的代码添加到 https://ebird.org/species/amecro
secondary_labels: 记录员标注的背景物种,空列表并不意味着没有背景鸟的声音。
author - 提供录音的 eBird 用户
Filename:关联音频文件。
rating: 浮动值在 0.0 到 5.0 之间,作为 Xeno-canto 的质量等级和背景物种数量的指标,其中 5.0 是最高的,1.0 是最低的。0.0 表示此记录还没有用户评级。
train_audio
:大量的训练数据由 xenocanto.org 的用户慷慨上传的单个鸟类叫声的短录音组成。这些文件已被下采样到 32khz,适用于匹配测试集的音频,并转换为 ogg 格式。test_soundscapes
:当您提交一个笔记本时,test_soundscapes 目录将填充大约 5500 段录音,用于评分。每一个都是 1 分钟几毫秒的 ogg 音频格式,并只有一个音景可供下载。test.csv
:测试数据row_id:行的唯一标识符。
file_id:音频文件的唯一标识符。
bird :一行的 ebird 代码。每个音频文件每 5 秒窗口有一排为每个得分物种。
end_time:5 秒时间窗口(5、10、15 等)的最后一秒。
音频特征提取
特征提取是突出信号中最具辨别力和影响力的特征的过程。本文将引导完成音频处理中的一些重要特征提取,你可以将其扩展到适合的问题域的许多其他类型的特征。本文的其余部分只是一个生物技术学生的尝试,向你解释 ta 在过去几天能够理解的任何信号处理。
我们将讨论的三种主要音频特征提取类型 ```
Time Domain 2. Frequency Domain 3. Spectrum-Based
加载并频文件
将音频文件加载为浮点时间序列并提供其原生采样率
采样频率(或采样率)是音频中每秒的采样数(数据点)
可以通过将数据点总数除以采样频率来检查音频长度
1.时域特征
波形可视化
频谱图
频谱图是信号频率随时间变化的频谱的直观表示,它们是信号的时频图。使用频谱图,我们可以看到能量水平 (dB) 如何随时间变化。它是一种直观的方式,表示信号在特定波形中出现的各种频率下随时间变化的信号强度或“响度”。频谱图是通常被描述为热图,即通过改变颜色或亮度来显示强度的图像。
RMSE
信号的能量对应于其总幅度,其对于音频信号,这大致表征了信号的响度。RMSE 是一种表征信号能量的方法,计算均方的平方根(音频帧幅度平方的平均值).
梅尔光谱图
梅尔频谱图是将频率转换为梅尔标度的频谱图
过零率(ZCR)
音频信号的 ZCR 定义为信号改变符号的速率。 ZCR 是检测语音帧是有声、无声还是无声的一种有效且简单的方法。 预计清音段产生比语音段更高的 ZCR,理想情况下静音段的 ZCR 等于 0
Harmonic 和 Percussive Signals 的分离
声音大致可以分为两类。- 一方面,谐波是我们感知为音高的声音,是什么让我们听到旋律和和弦。
另一方面,敲击声类似于噪音,通常源于乐器的声部,如击鼓声或语音中的辅音。
节拍提取
频域特征
色谱图
特征是音乐音频的强大表示,其中我们使用称为色度向量的 12 元素光谱能量表示,其中 12 个 bin 中的每一个代表西方音乐的 12 个等律音高等级(半音间距)。
特征或向量通常是一个 12 元素的特征向量,指示信号中存在的每个音级 {C、C#、D、D#、E、...、B} 的能量。 简而言之,它提供了一种健壮的方式来描述音乐片段之间的相似性度量。
图中可以清楚地看到 12 个 bin。它可以通过输入声音信号的对数短时傅里叶变换计算得出,也称为色度
恒定 Q 变换 (CQT)
恒定 Q 变换将数据序列变换到频域,它与傅里叶变换有关。 一般来说,该变换非常适合音乐数据,并且在频率跨越几个八度音阶时证明是有用的。
Chroma Energy distribution Normalized Statistics (CENS)
基于色度的特征是色度能量分布归一化统计 (CENS),它通常用于识别给定音乐的不同解释之间的相似性。 CENS 通常用于音频匹配和相似性任务。
频谱相关功能
光谱质心
频谱质心是表征给定频谱的“质心”的量度。频谱质心计算为给定信号中存在的频率的加权平均值,使用傅里叶变换确定,频率幅度作为权重,这里 S(k)是频段 k 处的频谱幅度,f(k)是频段 k 处的频率。
光谱对比度
谱峰和谱谷之间的差异将反映谱对比度分布。
SPECTRAL ROLLOFF
Spectral rolloff point 定义为功率谱分布的第 N 个百分位频率,通常为 85% 或 95%,滚降点是 N% 幅度分布集中的频率。
梅尔频率倒谱系数 (MFCC)
一种流行的音频特征提取方法是梅尔频率倒谱系数 (MFCC),它有 39 个特征,特征计数足够小,足以迫使模型学习音频的信息。 12 个参数与频率的幅度有关,它模拟了人声的特征,MFCC 特征的提取流程如下图所示:
此功能是提取音频信号特征的最重要方法之一,主要用于处理音频信号。
版权声明: 本文为 InfoQ 作者【浩波的笔记】的原创文章。
原文链接:【http://xie.infoq.cn/article/7b435b4abd6cbbf8f756d3a6a】。
本文遵守【CC BY-NC】协议,转载请保留原文出处及本版权声明。
评论