AI 冬奥 | 未来已来?走进元宇宙入口 - 虚拟数字人
2022 年 2 月 4 日,冬奥会正式开幕。在开幕式及冬奥会赛事进程中,人工智能、5G、AR、裸眼 3D 和云等多种硬科技大显神通。其中,作为元宇宙场景入口和连接纽带的虚拟数字人技术尤为引人注目。本次冬奥会的手语主播和气象主播均为虚拟数字人。
虚拟手语主播:央视虚拟手语主播在冬奥会新闻播报、赛事直播和现场采访中,为听障人士提供实时手语翻译服务。该虚拟主播为超写实的虚拟数字人,表情、口型、毛发、服饰等均高度接近真人。
虚拟气象主播:以冯殊为训练对象的 AI 虚拟人冯小殊,在北京冬奥会期间将持续播报冬奥观赛天气状况,为公众提供健康指南。
本文将带领大家由冬奥 AI 主播走进虚拟数字人,详细了解其内涵、技术实现、发展现状以及颇具前景的应用领域。
1. 什么是虚拟数字人:高度拟人、自然互动
拟数字人最早可追溯到 20 世纪 80 年代。1982 年,日本动画《超时空要塞》播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,世界上第一位虚拟歌姬由此诞生。此时的虚拟数字人以手绘为主。21 世纪初,计算机图形学(CG, Computer Graphics) 和动作捕捉技术逐渐成熟,在虚拟数字人的制作中得到广泛应用,如“初音未来”,其早期形象便是利用 CG 技术合成。近 5 年来,得益于人工智能技术的飞速发展和应用,虚拟数字人制作更加便捷、精准和智能。在 AI 技术加持下,虚拟数字人形象可达到写实级逼真程度,且具备情感表达和沟通交流的智能交互能力。
目前市场中探讨的虚拟数字人主要为 AI 加持下高仿真、可互动的虚拟数字人,虚拟化、数字化和拟人化是其核心要素。
虚拟化:存在于非物理世界中,目前主要以图片、视频、实时直播、实时动画等方式存在于 APP、小程序、软硬一体显示设备等中;未来,VR 设备与全息投影也将成为其重要存在方式。
数字化:依赖多项数字化技术,包括 CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动作捕捉等相关技术。
拟人化:虚拟人在外表、行为以及思想与交互方面,均与人高度相似。
外表:具有特定的相貌、性别和性格等人物特征。虚拟数字人的外表会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发等细节的建模)、渲染水平、设计审美等影响。
行为:具有用语言、面部表情和肢体动作表达的能力。虚拟数字人的行为表现会受到驱动方式(真人驱动、智能驱动等)、训练数据、驱动模型精度等影响。
互动:具有识别外界环境、并能与人交流互动的能力。虚拟数字人的交互能力会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识库等的影响。
2. 技术实现:多模态 AI 和算力为核心支撑
虚拟数字人主要由三大核心技术环节作为支撑:建模(即虚拟数字人形象的生成),驱动(即识别用户的意图,并根据用户当前意图决定数字人后续的语音和动作,驱动虚拟数字人与用户开启下一轮交互)和渲染(让虚拟数字人的皮肤纹理等变得真实,形象更加拟人)。这些技术环节均离不开人工智能技术的加持和算力资源的支持。
2.1 建模:计算机视觉技术加持
目前的建模主要仍依靠 CG(Computer Graphics,计算机图形学)和静态扫描技术。但其成本高昂,环球影业运用 CG 技术还原已去世的保罗在《速度与激情 7》中的表演,相关渲染成本增加了约 5000 万美元。此外,CG 技术合成的虚拟人也面临形象粗糙、仿真度不足的挑战。
近年来,随着人工智能技术的发展,利用深度学习的动态三维重建技术逐渐显露锋芒。动态三维重建技术主要采用摄像机阵列采集几何形态、纹理、材质、三维运动信息等动态数据,同时结合光场中所有光线的方向和角度数据,为建模提供丰富、精细的信息,提升建模的效果。
同时,AI 技术也大大降低了建模的门槛。拟人的表情动作,如简单的皱眉,也会牵动骨骼、肌肉、皮肤的一系列变化。用传统的手工方式去调整工作量巨大,而利用 AI 技术可大幅降低工作量。
2.2 驱动:多模态 AI 技术赋能
根据互动驱动方式的差异,虚拟数字人可分为真人驱动型和 AI 驱动型两大类。真人驱动型虚拟数字人由真人的动作表达配合动作捕捉技术,驱动虚拟人与观众进行实时交互。AI 驱动型虚拟数字人则通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策虚拟数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。
图 1 虚拟数字人的分类-技术角度
真人驱动型虚拟数字人的核心技术支撑为动作捕捉技术。主流的动作捕捉技术为光学捕捉和惯性捕捉,但设备较为昂贵。今年来,随着深度学习技术和表情、动作识别等算法的进步,基于计算机视觉的动作捕捉逐渐兴起,具有低价、简单、易用的优势,普通的摄像头结合优质的识别算法也能实现良好的驱动。
AI 驱动的虚拟数字人则需依赖多模态人工智能技术,综合运用视觉、听觉等多种“感官”,让 AI 形象更加拟人。具体技术主要包括:
语音识别(ASR):听觉感知,实现“听得见”
自然语言处理(NLP):准确理解用户的需求,即“听得懂”
语音合成 (TTS):回应与互动,且语言表达符合真人发声习惯
语音驱动面部动画(ADFA):通过语音驱动虚拟数字人唇形的变化
相比于单一模态的算法开发,多模态模型的开发训练更加复杂,涉及多模态表征学习、模态转换、对齐、多模态融合和协同学习等复杂技术细节和大规模训练需求。因此,高易用性的开发生产工具和高性能的计算引擎,对于提升虚拟数字人开发生产效率,降低训练成本同样至关重要。
2.3 渲染:大规模算力支撑
渲染技术用于提升虚拟人的逼真程度,可分为实时渲染和离线渲染,对于精细度要求较高、时效性要求低的场景则可采用离线渲染,游戏和实时交互场景则需要实时渲染。由于算力资源和传输速度的限制,实时渲染在画质和效果的表现仍有较大提升空间。
虚拟数字人渲染需消耗大量算力资源,对企业来说是一项巨额成本支出,极大限制了虚拟数字人的探索与应用。目前绝大多数企业算力的管理仍相对粗放,算力资源的高效利用和精细化管理有望有效降低虚拟数字人开发制作成本,促进其应用落地。
综上,从虚拟数字人制作全生命周期技术需求来看,多模态 AI 技术和充足的算力支撑是核心,而易用、高性能的 AI 开发生产工具和高效的算力资源管理则是促进其落地应用的基础保障。白海科技新一代 AI 开发生产平台-IDP,提供兼具交互式编程和工程化功能的易用 IDE、高性能分布式计算引擎和精细化的资源调度管理(包括资源隔离、任务级别的断点续跑、自动休眠等),可有效加速虚拟数字人的开发,降低算力资源消耗。
3. 技术应用现状与趋势:游戏领域或大有可为
目前虚拟数字人已在金融客服、媒体主播、游戏角色等领域得到应用。在去中心化的 Web 3.0 和元宇宙趋势下,我们认为个人或社区运营的数字化身类虚拟人商业化前景广阔,游戏赛道或是其首当其冲的爆发领域。
图 2 虚拟数字人的应用分类
近期:RPG 游戏精品化的需求
随着监管趋紧和游戏玩家数量趋于饱和,我国游戏行业目前已进入存量博弈阶段。在激烈的竞争环境下,为用户提供更加丰富和沉浸式的体验成为关键成功要素。近期典型的案例就是 ARPG 游戏《原神》,凭借品质和口碑,吸引了大量流量。丰富精美的虚拟化身是《原神》最重要的组成成分之一。截止版本 2.2,《原神》可玩角色数量已达 41 个。制作团队预计每年为《原神》新增大约 17 个角色,这对开放世界 ARPG 来说并非一个小数目。
从游戏类别来看,与虚拟数字人高度相关的角色类游戏(包括角色扮演类游戏和多人竞技类游戏)在我国游戏营收贡献居于首位,在移动游戏中营收占比~35%。该类游戏的精品化,将利好虚拟数字人技术的应用落地。虚拟数字人技术能够有效简化和加快游戏动画制作过程,让游戏中更多的虚拟角色都具备丰富的肢体动作和精细的面部表情,给玩家带来更沉浸的游戏体验。
图 3 中国游戏市场趋势
中远期:元宇宙游戏对数字身份的需求
游戏作为现实的模拟和延伸,形态与元宇宙十分相似,有可能成为元宇宙最先应用的场景。微软首席执行官萨蒂亚·纳德拉在微软收购动视暴雪后表示:“在如今的所有平台上,游戏是最具活力、最让人兴奋的娱乐类别,未来将会在元宇宙平台的发展中发挥关键作用。”
从技术角度讲,元宇宙游戏的核心是去中心化,开放社交与自主创造,用户可以使用多平台互通、安全、自治的数字身份,与其玩家进行互动。开放的元宇宙游戏世界将提升对虚拟数字人的需求。例如,在目前公认最接近元宇宙游戏的 Roblox 中,每个人都可以自定义数字身份来与他人进行社交,包括查看附近玩家、线上派对和会议、虚拟音乐会等。
目前虚拟数字人市场仍处于前期培育阶段,但市场对其关注度已持续上升,将会有越来越多的企业投入虚拟数字人产业链。游戏企业在虚拟数字人需求和落地场景层面具有得天独厚的优势,在技术的有力加持下,有望基于数字身份重塑游戏理念。
4. IDP 助力游戏企业加速 AI 应用与创新
游戏的设计、制作、用户运营等全生命周期与人工智能各子技术都有交叉,是人工智能技术应用落地,实现社交智能(Social Intelligence)、 情感交互(Affective Interaction)和通用智能(General Intelligence)等目标的理想场景。
除降低虚拟数字人开发应用门槛外,IDP 在对于游戏企业智能用户分析、游戏智能生产设计与优化方面也同样具有降本增效、加速迭代的作用。在游戏企业广泛拥抱 AI 技术的过程中,IDP 将同企业一起,高效率、低成本地实现 AI 的创新应用,促进游戏企业的智能化颠覆式创新。
图 4 IDP 加速游戏企业 AI 创新—用户洞察与运营分析
图 5 IDP 加速游戏企业 AI 创新—游戏生产设计
【参考资料】
德勤咨询,元宇宙系列白皮书—未来已来,2021.12
国盛证券,虚拟人的“灵魂”是什么?2021.12
中国人工智能产业发展联盟,虚拟数字人发展白皮书,2020
申港证券,微软收购动视暴雪 元宇宙生态布局再下一城,2022.01
了解 IDP: https://baihai.co/
关注 IDP: 公众号 Baihai IDP
版权声明: 本文为 InfoQ 作者【Baihai IDP】的原创文章。
原文链接:【http://xie.infoq.cn/article/ccb38051f6954a5b9a76026a4】。文章转载请联系作者。
评论