写点什么

交互型数字人发展现状!

作者:青否数字人
  • 2024-03-14
    河南
  • 本文字数:1492 字

    阅读完需:约 5 分钟

交互型数字人发展现状!

作为 AI 的应用场景之一,数字人在市场上的普及度比大模型高很多。可以作为智能客服,解答业务问题或者办理业务,推荐产品。那这个行业现在发展如何了?我们来看看作者做的分析。

交互型数字人是指能与人类进行实时交互对话的数字人,可以作为智能客服,解答业务问题或者办理业务,推荐产品。中国电信 app 首页的 AI 筱翼,是一种常见的数字人智能客服,电信掌上营业厅功能很多,部分功能不容易找到,通过数字人语音交互可以直达业务页面。talkie 对话界面也有一个形象,但是形象在对话中一直是静态的,不属于交互型数字人。

一、交互型数字人基本原理(源码:zhibo175)

可交互的数字人,主要原理是先通过视频生成数字人,对话时通过 asr 识别用户输入的问题,然后问题被发送给数字人大脑(传统 bot 知识库或大模型)获取答案,再通过 tts 将答案转换成音频,通过音频驱动数字人的唇部和面部,形成数字人说话视频,实现真人与数字人的对话。

数字人的驱动能力包括唇部,面部表情和肢体动作。通过音频驱动数字人唇部和面部变化,唇形准确率现在都比较高,数字人说话时口型和音频能对上,口型不细看基本没有破绽。数字人的肢体动作来源于提前制作好的动作库。制作数字人形象时,可以定制常用的动作,比如点赞、比心、手势引导等动作,将动作和数字人说话内容做好关联,数字人说话时就会触发这些动作,肢体动作和面部表情使数字人说话时更接近人类,更自然。2D 真人数字人和 3D 数字人都可以实现实时对话,但两者在数字人制作渲染、推理方面,是完全不同的技术路径。



二、客户群体

整个交互型数字人行业的服务对象,目前还是企业大客户,主要为银行/证券/保险/运营商/政务行业等客户提供解决方案,最终的落地形式有嵌入手机 app,或线下大屏。目前数字人客服的渗透率还不高,即便金融行业大公司也还处于数字人应用的探索和试点阶段。

在生活中我们能体验到的,有中国电信 app 上的 AI 筱翼,部分城市比如深圳的一些地铁站有数字人大屏,承担真人客服的功能,银行线下网点的大屏数字人大堂经理。项目价格一般可达百万级,市场上有数字人制作/驱动/NLP 和语音全链路能力的厂商不多,落地一般由多家厂商参与完成。

这次大模型的春风也刮到了数字人领域,在大模型的应用畅想中,C 端一般会提到用数字人作为个人智能助手或者数字人陪伴聊天,但是可交互的数字人目前价格至少几万,加上缺少实际场景,所以市场上的数字人产品很少。

三、交互式数字人的三大优势(源码:zhibo175)

根据某研究机构的公开数据,2022 年整个数字人行业的市场规模将近百亿,预计 2025 年将达到 500 亿左右。个人推测交互型数字人目前的市场规模数十亿。

1、数字人智能客服对客户的真实价值较高。

目前数字人客服对客户来说,属于锦上添花,替代真人客服降本增效。数字人是一个交互入口,真正能为客户解决实际问题。

现在基于大模型和本地知识库,涉及业务问题基于提供的知识库回答在业务办理场景,现在的数字人客服,基本有办理复杂业务的能力。

2、实时交互成本低

客服场景一般使用真人数字人,需要云端渲染,每次回答都需要实时生成一个视频,再结合实际客服的高并发场景,导致实时交互消耗的服务器资源多,交互成本高。

3、数字人的表现力比真人还要流畅。

好消息是大模型在视频生成上不断进步突破。青否最新的数字人模型效果看起来很经验,可以根据音频,直接生成头部运动自然,和面部表情自然的说话视频。这一新技术的应用,可以显著提升数字人对话时的自然程度,解决数字人表现生硬的问题已经应用到数字人领域。

交互型数字人的智能程度取决于背后的大模型,目前垂直行业大模型的落地应用还需要时间。另外数字人实时交互成本低,以及数字人表现比较流畅,交互型数字人实际应用很多。

用户头像

还未添加个人签名 2023-11-03 加入

还未添加个人简介

评论

发布
暂无评论
交互型数字人发展现状!_数字人_青否数字人_InfoQ写作社区