写点什么

对于交互型数字人您了解多少!

作者:青否数字人
  • 2024-04-10
    河南
  • 本文字数:1370 字

    阅读完需:约 4 分钟

对于交互型数字人您了解多少!

作为 AI 的应用场景之一,数字人在市场上的普及度比大模型高很多。可以作为智能客服,解答业务问题或者办理业务,推荐产品。

交互型数字人是指能与人类进行实时交互对话的数字人,可以作为智能客服,解答业务问题或者办理业务,推荐产品。中国电信 app 首页的 AI 筱翼,是一种常见的数字人智能客服,电信掌上营业厅功能很多,部分功能不容易找到,通过数字人语音交互可以直达业务页面。talkie 对话界面也有一个形象,但是形象在对话中一直是静态的,不属于交互型数字人。

一、交互型数字人基本原理

可交互的数字人,主要原理是先通过真人拍摄视频使用青否数字人克隆端生成数字人,对话时通过 asr 识别用户输入的问题,然后问题被发送给数字人大脑(传统 bot 知识库或大模型)获取答案,再通过 tts 将答案转换成音频,通过音频驱动数字人的唇部和面部,形成数字人说话视频,实现真人与数字人的对话。

数字人的驱动能力包括唇部,面部表情和肢体动作。通过音频驱动数字人唇部和面部变化,唇形准确率现在都比较高,数字人说话时口型和音频能对上,口型不细看基本没有破绽。数字人的肢体动作来源于提前制作好的动作库。制作数字人形象时,可以定制常用的动作,比如点赞、比心、手势引导等动作,将动作和数字人说话内容做好关联,数字人说话时就会触发这些动作,肢体动作和面部表情使数字人说话时更接近人类,更自然。2D 真人数字人可以实现实时对话,但两者在数字人制作渲染、推理方面,是完全不同的技术路径。

二、客户群体

整个交互型数字人行业的服务对象,目前还是 to B 大客户,主要为银行/证券/保险/运营商/政务行业等客户提供解决方案,最终的落地形式有嵌入手机 app,或线下大屏。目前数字人客服的渗透率还不高,即便金融行业大公司也还处于数字人应用的探索和试点阶段。

在生活中我们能体验到的,有中国电信 app 上的 AI 筱翼,部分城市比如深圳的一些地铁站有数字人大屏,承担真人客服的功能,银行线下网点的大屏数字人大堂经理。项目价格一般可达百万级,市场上有数字人制作/驱动/NLP 和语音全链路能力的厂商不多,落地一般由多家厂商参与完成。

三、交互式数字人的功能有哪些?(源码:zhibo175)

1.数字人克隆

拍摄真人出镜,正视镜头说话的 5-8 分钟绿幕视频,即可复刻出口型、动作、神态等 1:1 的数字人形象,行业高精度中文唇形驱动技术,性能优势与性价比处于全国领先水平。



2.声音克隆:支持中文和多种外语声音克隆,系统可以输出最多 140 种语言,服务全球用户,可选择 301 种音色,还可以克隆出来你的专属音色,满足不同类型的定制需求,您还可以上传录音进行输出。

3.“Al 大脑”模型

接入“讯飞星火认知大模型”,拥有跨领域的知识和语言理解能力,还可以上传企业专属的知识库,持续从海量文本数据和大规模语法知识中学习进化,实现基于知识库问答、多轮对话能力。

“数字人”和“AI 大脑”构建好后,通过多种技术手段,让数字人理解用户说的话,并把大脑内容传输出去。



4.音频采集

自研回声消除、声源定位,波束成形、去混响噪声抑制等核心算法用于远场语音交互场景。

5.显示终端

集合知识、看、听、说等多模态人机交互数字人,展现在大屏、移动设备、台式机或平板电脑等多个终端上,实现不同场景的真人模拟对话。



交互数字人源码独立部署能够多场景应用,功能完善,2024 年时数字人垂直应用的一年,数字人将逐渐占据人们的生活,看完本文分享希望你对交互型数字人有所了解!   

用户头像

还未添加个人签名 2024-01-24 加入

还未添加个人简介

评论

发布
暂无评论
对于交互型数字人您了解多少!_数字人_青否数字人_InfoQ写作社区