写点什么

2024 年 -2025 年开源语音数据汇总:数十万小时多语种、儿童老人语音、医疗健康等(截止 2025 年 11 月)

  • 2025-11-27
    北京
  • 本文字数:3860 字

    阅读完需:约 13 分钟

本文转载自「乐百一家」,如果你关注语音模型和算法,这一个不容错过的宝藏且高产的公众号。




最近两年开源数据越来越多,大家也意识到,无论是语音识别、语音合成,还是情感分析、多模态交互,高质量的数据集都是技术进步的基石。今天为大家整理了 2024-2025 年最新发布的开源语音数据集,涵盖中文、英文、多语种等多个方向,每个数据集都附上了直接下载链接,方便大家学习和研究。另本文遗漏部分,欢迎大家在文末评论,后续会动态更新整理到一起,做成专栏的形式,方便大家查阅。

01 国内开源语音数据集

🚀 Emilia - 10 万小时多语种语音数据集

发布时间: 2024 年 8 月


发布机构: Amphion 团队


数据规模:101,000 小时


支持语言: 中文 (49,922h)、英语 (46,828h)、德语、法语、日语、韩语


特色亮点:


  • 目前最大的多语种语音生成数据集


  • 涵盖脱口秀、访谈、辩论、体育解说等多种场景


  • 提供 Emilia-pipe 预处理流水线


下载链接:


Hugging Face: https://huggingface.co/datasets/Amphion/Emilia

👶👴 ChildMandarin & SeniorTalk - 特殊人群语音数据集

发布时间: 2025 年 4 月


发布机构: 智源研究院 + 南开大学 HLT Lab


ChildMandarin(儿童语音):


规模: 41.25 小时,397 名 3-5 岁儿童


地域: 覆盖 22 个省市


特色: 填补低幼儿童语音数据空白


SeniorTalk(老年人语音):


规模: 55.53 小时,202 位 75 岁以上老人


地域: 覆盖 16 个省市


特色: 世界首个中文超高龄老年人对话数据集


智源社区:https://hub.baai.ac.cn/view/44729


儿童数据下载地址:https://huggingface.co/datasets/BAAI/ChildMandarin老人数据下载地址:https://huggingface.co/datasets/BAAI/SeniorTalk

🎭 Chinese-LiPS - 中文多模态语音识别数据集

发布时间: 2025 年 5 月


发布机构: 智源研究院 + 南开大学


数据规模: 100 小时,36,208 条语音片段,207 位讲者


核心创新:


  • 首个 「唇读信息 + 幻灯片语义信息」 结合的中文数据集


  • 包含唇读视频 (720P) + 幻灯片视频 (1080P)


  • 覆盖 9 大热门领域


性能提升:


单模态:CER 3.99% → 多模态融合:CER 2.58%


相对提升 35.3%


智源社区:https://kiri0824.GitHub.io/Chinese-LiPS/

🌏GigaSpeech 2 - 东南亚多语种数据集

发布时间: 2024 年 6 月


合作机构: 上海交大 X-LANCE、SpeechColab 等


数据规模: 30,000 小时 (raw),22,000 小时 (refined)


语言分布:


  • 泰语: 10,000 小时


  • 印尼语: 6,000 小时


  • 越南语: 6,000 小时


特色功能:


  • 涵盖 19 个主题领域


  • 提供自动化构建流程


  • 模型性能达到商业服务水平


HuggingFace 下载地址: https://huggingface.co/datasets/speechcolab/gigaspeech2

🇭🇰 WenetSpeech-Yue - 2 万小时粤语语音数据集

发布时间: 2025 年


合作机构: 西北工业大学 ASLP Lab、中国电信、希尔贝壳、Wenet 开源社区、香港科技大学


数据规模:21,800 小时,全球最大粤语语音数据集


数据特色:


  • 覆盖 10 个领域: 讲故事、娱乐、戏剧、文化、vlog、评论、教育、播客、新闻等


  • 多维标注: ASR 转录、文本置信度、说话人身份、年龄、性别、语音质量评分、字符级时间戳


  • 质量分级: 强标签 (confidence>0.9)、中等标签 (0.8-0.9)、弱标签 (0.6-0.8)


技术亮点:


  • 专门筛选 12,000 小时高质量语音用于 TTS (DNSMOS>2.5 且 SNR>25dB)


  • 提供 WS Yue-Eval 评测基准


  • 支持中英混杂 (code-switching) 场景


下载地址:


GitHub:https://GitHub.com/ASLP-lab/WenetSpeech-YueASR 模型:https://GitHub.com/ASLP-lab/ws-yue-asrTTS 模型:https://GitHub.com/ASLP-lab/ws-yue-tts

🇨🇳 WenetSpeech-Chuan - 1 万小时川渝方言数据集

合作机构: 西北工业大学 ASLP Lab、希尔贝壳、中国电信人工智能研究院、南京大学、Wenet 开源社区


数据规模:10,000 小时,首个大规模川渝方言语音语料库


覆盖 9 个领域: 满足 1.2 亿母语使用者需求


多维标注: ASR 转录、文本置信度、说话人情感、年龄、性别、语音质量评分


应用价值: 填补川渝方言数据空白,推动方言保护


评测基准:


  • WSC-Eval-ASR: 人工标注集,评测不同场景声学条件下的 ASR 性能


  • WSC-Eval-TTS: 简单和困难子集,用于标准测试与泛化能力测试


技术价值:


  • 基于该数据集训练的模型性能超越 SOTA 系统


  • 与商业系统相媲美


  • 推动川渝方言语音技术发展


下载地址:


GitHub:https://GitHub.com/ASLP-lab/WenetSpeech-ChuanASR 模型:https://GitHub.com/ASLP-lab/ws-chuan-asrTTS 模型:https://GitHub.com/ASLP-lab/ws-chuan-tts

🧠** LLaSO - 开源语音大模型框架**

发布时间: 2024 年


发布机构: 北京深度逻辑智能科技


框架组成: 三大核心组件


LLaSO-Align(对齐数据集):


  • 1200 万语音 - 文本对齐样本


  • 建立语音表示与文本语义空间对齐


LLaSO-Instruct(指令数据集):


  • 1350 万多任务指令样本


  • 涵盖 20 项任务,支持三种交互模式


LLaSO-Eval(评估基准):


  • 15,044 个测试样本


  • 标准化评估协议


下载地址:


GitHub:https://GitHub.com/EIT-NLP/LLaSO

🔄 Easy-Turn-Trainset - 对话轮次检测数据集

数据规模:约 1100 小时


数据类型: 真实 + 合成数据


数据集组成:


  • 完整状态: 580 小时


  • 不完整状态: 532 小时


  • 回应状态: 10 小时


  • 等待状态: 23 小时


应用场景: 全双工对话系统的轮次检测


下载链接:


数据集:https://www.modelscope.cn/datasets/ASLP-lab/Easy-Turn-Trainset

🌐** CS-Dialogue - 中英文切换数据集**

发布时间: 2025 年 2 月


数据规模:104 小时,200 位说话人


语言类型: 普通话 - 英语切换


最大的公开自发式中英文切换对话数据集


包含完整对话录音和转录


捕捉自然的切换现象


下载链接:


arXiv 论文:https://arxiv.org/pdf/2502.18913GitHubhttps://huggingface.co/datasets/BAAI/CS-Dialogue

02 国际开源语音数据集

🌐Meta Omnilingual ASR Corpus - 1600 + 语言语音数据集

发布时间: 2025 年 11 月(最新发布)


发布机构: Meta AI FAIR 团队


数据规模: 350 种低资源语言的大规模转录数据集


支持语言:1600 + 种语言,其中 500 种首次被 AI 覆盖


技术突破:


  • 78% 的语言字符错误率低于 10%


  • 95% 有 10 小时以上训练数据的语言达到实用标准


  • 36% 低资源语言(<10 小时数据)也达到实用水平


创新特性:


  • 少样本学习:仅需几段音频 + 文本即可扩展新语言


  • 理论扩展能力:可扩展到 5400 + 种语言


  • 模型规模:3 亿参数(轻量级)到 70 亿参数(高精度)


下载地址:


GitHub:https://GitHub.com/facebookresearch/omnilingual-asrHugging Face 数据集:https://huggingface.co/datasets/facebook/omnilingual-asr-corpus在线演示:https://aidemos.atmeta.com/omnilingualasr/language-globe转录工具:https://huggingface.co/spaces/facebook/omniasr-transcriptions

🎯Common Voice - 最大众包语音数据集

更新频率: 每季度更新


最新版本: 22.0(2025 年 6 月)


数据规模: 86.53GB,3,718 小时录制


支持语言:137 种语言


参与人数: 97,925 人


2024-2025 年发展:


  • 从 80.8GB 增长到 86.53GB


  • 语言覆盖从 100 + 扩展到 137 种


  • 参与人数增长 7,000+


下载地址:


Mozilla Data Collective: https://datacollective.mozillafoundation.org/datasets

🎵 HiFiTTS-2 - 高带宽语音合成数据集

发布会议: Interspeech 2025


数据规模: 36.7k 小时(22.05kHz),31.7k 小时(44.1kHz)


语言: 英语


技术特色:


  • 专注高带宽语音合成


  • 详细元数据标注


  • 支持零样本 TTS 训练


下载地址:


ISCA Archive:https://huggingface.co/datasets/nvidia/hifitts-2

🏥Bridge2AI-Voice - 医疗语音数据集

发布时间: 2025 年 1 月


发布机构: NIH Bridge2AI 计划


数据规模: 12,523 条录音,306 位参与者


疾病覆盖:


  • 语音障碍


  • 神经系统疾病(帕金森、ALS、中风)


  • 心境障碍(抑郁症、焦虑症)


  • 呼吸系统疾病


下载地址:


PhysioNet(需申请):HTTPS://physionet.org/content/b2ai-voice/1.1/

💊VietMed - 越南医疗语音数据集

数据规模: 16 小时标注医疗语音 + 2200 小时无标注语音


语言: 越南语


覆盖所有 ICD-10 疾病组


包含越南所有口音


提供预训练和微调模型


下载地址:


GitHub:https://GitHub.com/leduckhai/multimed

😊 nEMO - 波兰情感语音数据集

数据规模: 3 小时,9 位演员


情感类别: 愤怒、恐惧、快乐、悲伤、惊讶、中性


下载地址:


Hugging Face:https://huggingface.co/datasets/amu-cai/nEMO


arXiv:https://arxiv.org/abs/2404.06292

03 数据集统计分析

按规模分布

  • 超大规模(10k 小时 +): Emilia(101k)、WenetSpeech-Yue(21.8k)、GigaSpeech 2(30k)、WenetSpeech-Chuan(10k)


  • 中等规模(100-1000 小时): Chinese-LiPS(100)、Easy-Turn(1100)


  • 小规模(10-100 小时): ChildMandarin(41)、SeniorTalk(55)、CS-Dialogue(104)

按语言覆盖

  • 单语言: 中文、英语、波兰语、越南语等


  • 多语言: Meta Omnilingual(1600+)、Common Voice(137)、Emilia(6)


  • 方言: 粤语 (WenetSpeech-Yue)、川渝方言 (WenetSpeech-Chuan)

按应用领域

  • 语音识别: 最多,包含多个大规模数据集


  • 语音合成: 注重情感表达和多风格


  • 医疗健康: 新兴重要领域


  • 情感分析: 多语言覆盖


  • 多模态: 结合视觉信息


  • 方言保护: 粤语、川渝方言等

04 使用建议

  • 规模突破: 10 万小时级数据集成为现实


  • 质量提升: 多模态、精细化标注成为趋势


  • 语言覆盖: 从主流语言扩展到 1600 + 种语言


  • 方言保护: 粤语、川渝方言等地方语言得到重视


  • 领域深化: 医疗、教育、娱乐等垂直领域快速发展


  • 技术创新: 自动化构建、合成数据等新技术应用


这些开源数据集为语音技术的发展提供了强有力的支撑,相信在这些优质数据的推动下,语音技术将在更多领域得到广泛应用。


💡 温馨提示: 所有数据集请按照其许可证要求合理使用,支持开源社区的发展!




阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么





用户头像

还未添加个人签名 2021-02-05 加入

RTE 开发者社区聚焦实时互动与对话式 AI,提供技术分享、创新项目、活动直播与播客;服务 Voice Agent、Real-Time AI 的开发者与创业者。

评论

发布
暂无评论
2024年-2025年开源语音数据汇总:数十万小时多语种、儿童老人语音、医疗健康等(截止2025年11月)_RTE开发者社区_InfoQ写作社区