写点什么

ICASSP 2024 语音技术前沿论文速览

作者:qife122
  • 2025-08-14
    福建
  • 本文字数:534 字

    阅读完需:约 2 分钟

会议背景

国际声学、语音与信号处理会议(ICASSP 2024)于 4 月 14-19 日在首尔举行。某机构作为铜牌赞助商参与,并组织了"可信语音处理"研讨会,由 AGI 基础组织的高级应用科学家 Anil Ramakrishna 和研究经理 Rahul Gupta 共同主持。

技术亮点

  1. 语音识别(ASR)创新

  2. 最大间隔转录器损失:通过大间隔学习策略改进序列判别训练,从预训练模型的 N-best 列表中分离优质/劣质假设

  3. Promptformer 架构:基于 Conformer 转录器的新型 ASR 框架

  4. 对话引导的自监督学习:利用任务型对话提升 ASR 性能

  5. 端到端实体解析

  6. S2E 系统:直接从音频信号解析实体指称到文本目录的可操作实体,架构包含声学编码器与实体链接模块

  7. 语音增强技术

  8. NoLACE 算法:通过自适应时域整形改进低复杂度语音编解码增强

  9. 实时立体声增强:基于双路径结构保持空间线索

  10. 说话人识别

  11. 嵌入对齐技术:解耦注册模型和运行时模型的参数更新

  12. 唤醒词检测

  13. 神经模型重编程:通过热修复技术适配端到端 ASR 系统

  14. 最大熵对抗增强:提升关键词识别的鲁棒性

其他研究方向

  • 副语言学增强:结合大语言模型建模对话中的非语言信息

  • 音高估计:低复杂度 DSP 辅助的神经网络方法

  • 负责任 AI:利用置信度模型识别语音模型中的挑战性数据子群


更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)或者 我的个人博客 https://blog.qife122.com/公众号二维码


办公AI智能小助手


用户头像

qife122

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
ICASSP 2024语音技术前沿论文速览_人工智能_qife122_InfoQ写作社区