写点什么

什么是互动式数字人?

作者:青否数字人
  • 2024-01-15
    河南
  • 本文字数:1120 字

    阅读完需:约 4 分钟

什么是互动式数字人?

一.互动数字人对话流程

用户说话--ASR 语音识别--NLU 自然语言理解--DM 对话管理--NL 自然语言生成--TTS 文字生成语音--STV 语音生成视频



二.支持多终端交互:

1.智慧大屏 AI 数字人:提高公司品牌科技感,提高门店品牌形象,吸引线下流量关注,辅助门店业务咨询和引导

2.手机 app 实时交互:以 SDK 形式嵌入至手机 app,实时语音交互,创建沉浸式体验,VIP 客户线上服务,复杂产品推介

3.微信公众号:扫面二维码或从公众号开始数字人交互,适合会员服务场景,办理简单业务,解决问题方便快捷

4.微信小程序:扫描二维码或通过公众号菜单跳转语音交互,适合产品营销对接,多渠道流量导入



三.交互式数字人核心技术 (🌏:zhibo175)

1.形象克隆

拍摄真人出镜,正视镜头说话的 5-8 分钟绿幕视频,即可复刻出口型、动作、神态等 1:1 的数字人形象,行业高精度中文唇形驱动技术,性能优势与性价比处于全国领先水平。



2.“Al 大脑”模型

接入“讯飞星火认知大模型”,高智商,有灵魂的大脑,拥有跨领域的知识和语言理解能力,完成问答对话和文学创作等任务,还可以上传企业专属的知识库,持续从海量文本数据和大规模语法知识中学习进化,基于知识库问答、多轮对话能力拥有跨领域的知识和语言理解能力,实现从提出问题、规划问题到解决问题的全流程闭环。

超大规模语言模型:

(1)情景学习:在新领域下快速适应、学习,根据输入的任务描述生成对应模式的答案

(2)多语种:支持 10 种以上语言,包含但不限于: 中、英、德、西、法、日、意、俄、韩、葡

(3)语言的理解和生成:理解、分析输入文本及其情感色彩,基于上下文和相关知识生成自然语言文本

(4)逻辑推理:根据输入文本中的信息进行推理并生成相关输出,例如数学计算,逻辑推理等

(5)开放问答:深度理解问题和答案的意义,建立知识关联,支持自由询问,提供全面实用的回答



“数字人”和“AI 大脑”构建好后,通过多种技术手段,让数字人理解用户说的话,并把大脑内容传输出去。

3.音频采集

自研回声消除、声源定位,波束成形、去混响噪声抑制等核心算法用于远场语音交互场景。

4.显示终端

集合知识、看、听、说等多模态人机交互数字人,展现在大屏、移动设备、台式机或平板电脑等多个终端上,实现不同场景的真人模拟对话。

四.智能一体屏,实现真人与数字人的语音交互

1.休眠模式+语音唤醒:平时处于休眠模式,可语音轻松唤醒数字人

2.形象+视频+文本+图片任意组合:支持多模态,可支持文本,图片,视频等多种组合方式,展示不同的服务背景

3.语音+触控双交互:支持语音对话,也支持屏幕触控,更方便交互



五:青否互动数字人灵活部署 (🌏:zhibo175),支持云端或本地服务器部署来满足企业的各项需求。



互动数字人已经应用了各种场景之中,替代一部分人工,为企业节省成本,增加工作效率做出了巨大贡献!

用户头像

还未添加个人签名 2023-11-03 加入

还未添加个人简介

评论

发布
暂无评论
什么是互动式数字人?_数字人_青否数字人_InfoQ写作社区