写点什么

科技向善|智源联合南开大学 HLT Lab 开源两大中文语音数据集,填补老幼人群语音研究空白

作者:智源研究院
  • 2025-04-07
    北京
  • 本文字数:2025 字

    阅读完需:约 7 分钟

当我们展望 AI 的未来,最重要的不是追逐技术的极限,而是思考它如何真正服务人类,特别是那些最需要帮助的群体。'AI 向善'不是一句口号,而是一项永续的使命。在我国,儿童和老年人群体占总人口超过 30%,他们很少能使用输入法,主要靠语音进行智能交互,是智能时代不可忽视的重要群体。然而,即便在已相对成熟的智能语音领域,对于特殊人群,特别是低幼儿童超高龄老年人的语音理解和分析,仍面临巨大挑战。主要原因在于两个群体的语音数据严重缺乏,特别是自然对话数据处于空白状态。


为弥补这一研究空白,智源研究院联合南开大学计算机学院人类语言技术实验室 HLT Lab 在 2025 中关村论坛上正式发布并开源 ChildMandarin SeniorTalk 两大语音数据集,覆盖 3-5 岁低幼儿童和 75 岁及以上的超高龄老年人。这两项数据集的发布,将为面向儿童与老年人的语音识别、语音理解、语音分析等技术的发展提供宝贵资源,推动智能语音技术进步。

科技向善一直是智源研究院作为非营利机构努力的目标,此次发布的儿童和老年人的高质量语音数据集 ChildMandarin 和 SeniorTalk,将推动智能语音技术向“先进、有责任感、 包容、可评估”的下一个十年要求发展,助力开发更精准的语音识别系统,推动其在教育、养老、智慧家庭等领域的创新应用,让人工智能技术更好地服务儿童及老年群体。


科技向善,合规先行

由于低幼儿童的语言能力尚未完全发展,老年人的语音则常因生理衰退而产生变化,这使得现有语音技术在服务儿童和老年人群体时面临着巨大的挑战,存在明显短板。另一方面,儿童和老年人语音数据获取又面临重重困难。包括,

  1. 数据获取难:这些群体往往表达能力有限,难以按照指令完成长时间、多样化的语音采集任务。同时,他们的语音特征(如儿童的发音不准确,老年人的发音不清晰)也增加了采集和后续处理的难度。

  2. 合法获取数据更难:由于儿童和老年人都属于需要特殊保护的群体,获取他们的语音数据需要遵循严格的法律和伦理规范。包括获得监护人的知情同意、确保数据采集过程不会对被试造成任何身心伤害,以及严格保护个人隐私等。这些要求大大增加了合法获取数据的复杂性和成本。

  3. 合法获取自然对话数据难上加难:相比单纯的语音采集,获取自然对话数据更具挑战性。需要创造自然、轻松的对话环境,同时确保对话内容不涉及敏感或私密信息。此外,对于儿童,还需要考虑对话内容的适龄性;对于老年人,则需要注意可能存在的健康和认知障碍问题。

在 ChildMandarin 和 SeniorTalk 数据集的采集过程中,项目团队严格遵守数据合规要求,不仅对所有参与者的个人信息实施了隐私保护和匿名化处理,还确保每位发音者都签署了相关授权文件。

ChildMandarin: 3-5 岁低幼儿童中文对话语音数据集

儿童随着年龄增长,在发音、语调、语速等方面出现明显变化,且与成年人有显著差异。当前中文儿童语音数据集主要集中于学龄儿童,缺乏对 3-5 岁关键成长阶段的覆盖,ChildMandarin 数据集填补这一空白。该数据集具有以下核心特点:

  • 数据规模大397 名儿童,共计 41.25 小时 3-5 岁对话语音,在同类数据集中具备一定优势;

  • 地域覆盖广:数据采自 22 个省市,确保了地域多样性,涵盖不同口音和语音习惯;

  • 自然真实交互:采用家长引导式对话的采集方式,以模拟自然交流场景,使语音更具真实性。


实验结果表明,ChildMandarin 在语音识别和说话人验证任务上表现良好,并揭示了年龄、性别等因素对儿童语音识别性能的影响。该数据集的发布将有助于提升儿童语音识别技术,促进儿童语言发展研究,并为未来的智能语音交互系统提供关键数据支撑。

SeniorTalk: 世界首个中文超高龄老年人对话语音数据集

随着中国社会老龄化加剧,超高龄老年人(75 岁及以上)群体不断增加。实验分析显示,超高龄老年人的语音存在发音虚弱、方言固化、语言组织能力下降等特征,针对这一人群的语音数据极度稀缺,严重限制了面向老年人的语音识别、健康监测、辅助交流等技术的应用和发展。SeniorTalk 数据集的构建填补这一研究空白。该数据集主要特点包括:

  • 数据规模大202 位,55.53 小时超高龄老年人语音数据;

  • 地域覆盖广:数据采自 16 个省市,涵盖不同地域口音;

  • 自然真实交互:采用两两自发对话,覆盖退休、健康、生活等话题,贴近真实交流场景。


此外,SeniorTalk 包含多维度的精细标注,包括说话人信息、对话内容转写、时间戳(包含句子级和词级)、口音类别标签等。这些来自真实世界的数据将为深入研究老年人语音信号、优化老年人语音交互系统提供宝贵支撑,并推动如设备适老化、健康管理、辅助养老机器人等相关产业的发展。

📢 数据集获取方式

儿童数据集

Github 地址:https://github.com/flageval-baai/ChildMandarin

HuggingFace 地址:https://huggingface.co/datasets/BAAI/ChildMandarin

老年人数据集

Github 地址:https://github.com/flageval-baai/SeniorTalkHuggingFace 地址https://huggingface.co/datasets/BAAI/SeniorTalk

我们将持续推动语音数据集的更新,未来将对语音数据集完成 2.0 版本的迭代。欢迎广大研究者、开发者使用数据集,并共同推动语音技术的发展!


用户头像

还未添加个人签名 2024-05-11 加入

北京智源人工智能研究院聚焦人工智能原始创新和核心技术,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破,支撑北京建设成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头

评论

发布
暂无评论
科技向善|智源联合南开大学HLT Lab开源两大中文语音数据集,填补老幼人群语音研究空白_智源研究院_InfoQ写作社区