什么是互动式数字人?
一.互动数字人对话流程
用户说话--ASR 语音识别--NLU 自然语言理解--DM 对话管理--NL 自然语言生成--TTS 文字生成语音--STV 语音生成视频
二.支持多终端交互:
1.智慧大屏 AI 数字人:提高公司品牌科技感,提高门店品牌形象,吸引线下流量关注,辅助门店业务咨询和引导
2.手机 app 实时交互:以 SDK 形式嵌入至手机 app,实时语音交互,创建沉浸式体验,VIP 客户线上服务,复杂产品推介
3.微信公众号:扫面二维码或从公众号开始数字人交互,适合会员服务场景,办理简单业务,解决问题方便快捷
4.微信小程序:扫描二维码或通过公众号菜单跳转语音交互,适合产品营销对接,多渠道流量导入
三.交互式数字人核心技术 (🌏:zhibo175)
1.形象克隆
拍摄真人出镜,正视镜头说话的 5-8 分钟绿幕视频,即可复刻出口型、动作、神态等 1:1 的数字人形象,行业高精度中文唇形驱动技术,性能优势与性价比处于全国领先水平。
2.“Al 大脑”模型
接入“讯飞星火认知大模型”,高智商,有灵魂的大脑,拥有跨领域的知识和语言理解能力,完成问答对话和文学创作等任务,还可以上传企业专属的知识库,持续从海量文本数据和大规模语法知识中学习进化,基于知识库问答、多轮对话能力拥有跨领域的知识和语言理解能力,实现从提出问题、规划问题到解决问题的全流程闭环。
超大规模语言模型:
(1)情景学习:在新领域下快速适应、学习,根据输入的任务描述生成对应模式的答案
(2)多语种:支持 10 种以上语言,包含但不限于: 中、英、德、西、法、日、意、俄、韩、葡
(3)语言的理解和生成:理解、分析输入文本及其情感色彩,基于上下文和相关知识生成自然语言文本
(4)逻辑推理:根据输入文本中的信息进行推理并生成相关输出,例如数学计算,逻辑推理等
(5)开放问答:深度理解问题和答案的意义,建立知识关联,支持自由询问,提供全面实用的回答
“数字人”和“AI 大脑”构建好后,通过多种技术手段,让数字人理解用户说的话,并把大脑内容传输出去。
3.音频采集
自研回声消除、声源定位,波束成形、去混响噪声抑制等核心算法用于远场语音交互场景。
4.显示终端
集合知识、看、听、说等多模态人机交互数字人,展现在大屏、移动设备、台式机或平板电脑等多个终端上,实现不同场景的真人模拟对话。
四.智能一体屏,实现真人与数字人的语音交互
1.休眠模式+语音唤醒:平时处于休眠模式,可语音轻松唤醒数字人
2.形象+视频+文本+图片任意组合:支持多模态,可支持文本,图片,视频等多种组合方式,展示不同的服务背景
3.语音+触控双交互:支持语音对话,也支持屏幕触控,更方便交互
五:青否互动数字人灵活部署 (🌏:zhibo175),支持云端或本地服务器部署来满足企业的各项需求。
互动数字人已经应用了各种场景之中,替代一部分人工,为企业节省成本,增加工作效率做出了巨大贡献!
评论