小样本学习在语言理解任务中的突破
小样本学习新方法
语音助手接收新指令时,首要任务是进行意图分类(如播放音乐、查询天气等)。随着新功能的开发,经常需要从少量样本(5-10 个)中学习新意图分类。这种小样本学习场景下,研究团队提出结合原型网络(ProtoNets)与神经数据增强的创新方法。
技术架构
原型网络
通过元学习训练输入嵌入表示,最大化类间距离/最小化类内距离
每个批次可包含任意数量类别和样本,训练灵活性高
小样本学习时,将新类别样本嵌入后取均值生成原型向量
神经数据增强
生成器基于真实样本产生合成样本(模型命名为 ProtoDA)
与原型网络共享损失函数,确保生成样本优化类间分离度
实验显示在 128 维原型空间增强效果优于 768 维语义嵌入空间
实验结果
基础 ProtoNet 在 5 样本/10 样本场景下 F1 分数分别比基线高 1%和 5%
加入神经数据增强后:
相比噪声增强方法减少 8.4%(5 样本)和 12.4%(10 样本)F1 错误
最佳性能出现在生成器位于 ProtoNet 与分类层之间时
该方法已应用于某智能语音系统的自然理解模块,相关论文发表于 SLT 2021 会议。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论