多模态情绪分析与意图识别:打造更懂用户的智能 Agent

AI 技术所打造的智能体(Agent),已经逐步具备像人一样观察用户情绪和意图的能力。
在金融场景中,Agent 会作为初级理财顾问向用户推荐产品,面对各种投资组合,用户会在交流过程中考虑很多的因素,情绪上可能会出现一些起伏波动,有时会兴奋活跃,有时则会焦虑犹豫。如果 Agent 没有把握住用户的情绪变化,调整自己的沟通策略,则很有可能会导致推荐失败。
显然,一个只会简单推送理财方案的 Agent 是不够的。它需要像一位经验丰富的顾问,既能“听”出客户话中的担忧,又能“看”懂表情里的迟疑,用更贴合用户心理的方式提供专业建议。
如何做到这一点?这需要在 Agent 中引入多模态情绪分析和意图识别技术。直白一点,就像开头所说的那样,让机器也学会观察对话者。

首先是语音端,Agent 会分析说话者的语音特征,如语调的高低、语速的快慢、音量的大小以及语音的韵律等,并结合 VAD 降噪算法,来判断说话者的情绪状态。例如,一个人说话声音高亢急促,可能表示愤怒或激动,而声音轻快跳跃,则可能代表人处在兴奋和愉悦的心态中。
然后是文本端,前方的情绪观察是在为更好的理解文本打基础。Agent 通过进行情感词抽取与上下文关联分析,通过注意力机制融合双模态特征,让语音语调和内容结合,去理解说话者的真实表达。
同时还有视觉端。这主要依赖 Agent 对人的面部表情进行分析,面部的肌肉运动、五官的形态变化以及眼神等都能传递出丰富的情绪信息。例如,眉头紧皱、嘴角下垂通常表示不高兴,而嘴角上扬、眼睛眯起可能意味着开心。
而且 Agent 还要学会在变化中持续观察用户,即超拟人交互技术 TTS。它可以支持语音分段实时特征提取与多模态时序对齐,结合情感迁移学习技术动态调整 TTS 情感参数。说简单点,Agent 会按毫秒为单位,根据用户的反馈不停调整自己,以此达到接近于人类之间对话的灵活状态。
这还不够。
人类一句简单语言所表达的思想意图往往是复杂多样的,Agent 需要足够聪明伶俐,才能听懂用户一句话背后的数个真实意图。大模型增强分析机制用来解决这个问题,它能够实现多意图并行识别,以及意图的分层分级响应和智能任务编排,让用户的真实意图被层层拆解分析,才能懂用户的“心里话”。

至此,经过层层调优的 Agent 终于能像资深顾问一样,根据用户对话反馈及时调整自己的沟通策略,并给出更符合用户需求的解决方案。
目前,彩讯的智能体多模态情绪分析和意图识别技术被应用在一些金融场景的 Agent 对话中,用于主动沟通客户、客户来访问答、以及业务员问答能力训练等场景。有效地提高了业务办理成功率,增加了销售成单可能性,同时维护了更加健康的客户关系。
其实在未来更广阔的 Agent 应用场景中,情绪分析和意图识别都将会成为 Agent 的基础能力,并赋能 Agent 整体服务质量的提升。
所以尝试一下彩讯多模态情绪分析和意图识别技术,让自己的 Agent 也更有“眼力见儿”吧~
评论