写点什么

谁在“操控”虚拟人?

作者:自象限
  • 2023-10-16
    北京
  • 本文字数:4233 字

    阅读完需:约 14 分钟

谁在“操控”虚拟人?

图片|动漫《火影忍者》截图

©自象限原创

作者|程心

编辑|周游

大模型的风,吹动虚拟数字人厂商野蛮生长(以下统称虚拟人)。

《虚拟数字人深度产业报告》预计,到 2030 年我国虚拟数字人整体市场规模将达到 2700 亿元,其中,“服务型虚拟人”总规模也将超过 950 亿元。

如同秃鹰盯上腐肉,嗅到万亿商机的各方势力,都欲分一杯羹,这也直接导致了目前的虚拟人玩家格局陷入了“混战”状态。

「自象限」根据各方数据不完全统计,目前国内虚拟数字人核心厂商约有 6000 家。而按天眼查的数据显示,相关厂商数量甚至超过 6 万家。

同时,随着大模型(Large Model)的兴起,虚拟人的产业格局也在发生深刻变化。

比如,虚拟人正在经历从制作流程降本到技术突破的关键阶段,从大语言模型到多模态能力,让虚拟人从展示突破到了实时互动,这意味着未来虚拟人可能只需要一个实时渲染的外观,就能拥有十分逼真的沟通能力。技术门槛的降低,也会让更多参与方加入到这个开拓中的市场。而狂奔半年后,百亿个虚拟人也逐渐渗透进各行各业,并逐步进入商业化阶段。

也就是说,在厂商“混战”的表面下,隐藏的不仅是巨大的商业利益,更是复杂的技术博弈。而牵动着虚拟人“木偶引线”的另一头,操控者们的世界也在发生翻天覆地的变化。

千亿市场,厂商“混战”

如果说元宇宙时期的虚拟人已经是一把大火,那大模型就相当于在这之上又烹上了一勺油。一瞬间,铺天盖地的数字人厂商涌来,将本就复杂的行业搅得愈发浑浊。

这其中,既包括从元宇宙时期就一直坚持虚拟数字人的厂商,也有依靠全栈技术优势轻松迈出第一步的大厂,更不乏闻风而来的换道厂商。

「自象限」初步了统计核心厂商的类型后发现,这些厂商大致可以分为四类:

▲图为自象限原创,转载请注明出处

第一类是互联网大厂,如腾讯、百度、阿里、京东、网易等。这里面其实也分两类,一类是腾讯、百度为代表,他们业务庞大,在面向 To B 的解决方案上,比如金融、文旅、汽车等场景,需要一个数字人形象来符合新的交互方式。对于这些企业,数字人只是业务的一个补充。另一类则是网易为代表的,具有技术积累的企业,由于网易在游戏建模、AI 捏脸等方面丰富的探索和技术积累,让他们需要通过虚拟人将这些沉淀的资源转化。

第二类是原生厂商。这是较早布局数字人的一批厂商,如即构科技、魔珐科技、硅基智能、风平智能、数字栩生、相芯科技等。这类厂商或属于上一波元宇宙创业的“遗珠”,或属于市场早期以电商直播带货、本地生活直播等场景切入数字人场景的公司,得益于 AIGC 技术,其中的一些公司完成了从 2D 数字人到 3D 数字人的升级。

第三类是换道厂商。基于原有技术延伸入局数字人赛道,如:商汤、华为、科大讯飞、快手、360、美图、蔚领时代、元境科技、新壹科技等。这类厂商在发展过程中积累了一些涉及数字人的技术。譬如商汤的视觉识别技术、科大讯飞的语言识别技术、蔚领时代的游戏渲染技术等等,以这些技术为突破口再结合大模型的发展,完成了赛道的转换。

第四类是跨界厂商。他们因为自身业务场景需求而下探数字人技术,如万兴科技、蓝色光标、谦寻、高途、中公教育等。这类厂商的特点是其原本业务与数字人并无太大交集,如万兴科技主营业务是提供文图、剪辑类的基础工具,衍生出为客户提供数字人工具;蓝色光标的主要业务为广告业务,通过数字人可以更好的完成客户的需求;而谦寻则是一家 MCN 公司。但随着应用和场景的拓展,数字人成为了其新的发力方向,万兴科技借数字人进一步开拓了海外直播、营销业务,谦寻借由数字人找寻到了新一轮直播带货流量、成交额增长动力。

源于“出身”的不同,不同厂商的商业模式和目标也完全不同。

大厂的虚拟人多为服务自身核心战略而生,比如阿里、京东的虚拟人多被应用在电商领域;腾讯将移动互联网时代积累下来的 RTC(实时通信技术)应用在虚拟人交互中,打造了智影制作平台;百度希壤更偏向于表演型虚拟人,为不同企业提供定制化代言人;而网易则将虚拟人应用在游戏、教育等多个自身业务中。总的来说,互联网大厂并没有急于将虚拟人独立对外商业化,而是受自身技术的积累和场景需求催生。

核心对外提供服务的主要是原生的数字人厂商和换道厂商,从上个风口到如今,这类厂商已经积累了数字人的技术经验,对于底层技术、细节把控和场景的探索都有着更为体系化的认知。根据技术路线的不同,原生厂商又被分为 2D 厂商和 3D 厂商,2D 厂商更倾向于虚拟人与场景的结合,而 3D 厂商则处于技术迭代的状态。

“2D 虚拟人制作有两种方式,一种是请真人录制,然后帮其定制形象。一种是从用户提供的视频中提取形象,再用到各种场景中。但是 2D 数字人没办法做到 3D 那样转身、跳舞、做各种动作。”即构科技对二者的制作差异进行了详细解释。

但由于 2D 虚拟人的制作成本低,带动了整个虚拟人市场“飞入寻常百姓家”,填补了市场由于价格拦路而不能落地的需求鸿沟。「自象限」了解到,目前原厂厂商是大公司和品牌侧倾向的选择,通过行业 KA 客户打造标杆案例,比如银行、大型消费品品牌(健力宝)、美妆品牌(HR 赫莲娜)等等。

换道厂商和跨界厂商有异曲同工之笔,如商汤、美图等换道厂商,在上个阶段积累了 CV、图像识别等技术,被应用在了虚拟人的制作中,而像蓝标、谦寻等公司,源于自身的需求出发,为了避免高昂的采购成本,也选择自研虚拟人,技术不够硬核但有固定的客户群,商业化冷启动相对迅速。

产品成熟,重在交付

今年 8 月、9 月开始,虚拟人厂商产品开始加速迭代。据不完全统计,两个月内至少有 10 家厂商发布了新的虚拟人产品。

产品的高度迭代意味着虚拟人正在飞快得适应市场需求,而这也意味着虚拟人第一阶段的赛点已经走入关键阶段。

从类型来看,虚拟人厂商分为两类,一类直接交付虚拟人产品,包括通用虚拟人产品、行业垂直场景的虚拟人产品,比如电商、零售、营销、直播等,客户即拿即用,或标准化或定制化;另一类则提供虚拟人制作平台,客户通过使用平台提供的工具,自主生产虚拟人。

相比之下,产品交付类型更适合企业探索虚拟人初期,几乎不需要技术团队配合,门槛更低,也是目前较多企业选择的方式。

针对这类产品形式,虚拟人厂商也提供了多样的购买方案。如汽车试驾一样,品牌在购买虚拟人之前,可以先可进行 Demo 的试用,真实感受虚拟人的表情、动作、交互等等。除此之外,品牌在购买前还可以进行方案咨询,厂商会根据客户情况,制定具体的虚拟人传播方案,并有多种不同风格的虚拟人可以选择。

以即构虚拟人 Avatar 为例,企业可选择拟人形象和 Q 版形象,并可以在线直接体验给虚拟人换装、捏脸,并通过 AI 完成了表情驱动、声音驱动、文本驱动、肢体驱动等全方位的驱动方式。

▲图源:即构官网截图

提供制作平台的厂商产品则更加复杂,如魔珐科技的三款产品分别针对了不同场景进行,包括虚拟视频、虚拟人直播和独立的虚拟人服务,并且在后端打造了端到端的写实 3D 虚拟人工业化产线,包括从技术到调试到运营的“星云平台”,让虚拟人能够和大模型结合,长出“脑子”,真正实现 3D 交互。

▲图源:魔珐科技发布会

今年 8 月,魔珐科技升级了有言 AIGC 生成平台、有光直播带货平台和有灵虚拟人制作平台,为企业提供系列生成工具,企业根据自身需求,能够更加灵活的调整虚拟人的细节、结构和适配的使用场景。

相比之下,商汤既能够直接交付虚拟人产品,也打造了如影虚拟人制作平台,基于在视觉、语音领域积累的 3 万个算法模型,打造了集智能化生成、智能化驱动、智能化交互的数字人平台。在商汤智能化引擎驱动下,虚拟人能快速识别、反应,与用户建立起对话关系。并且,事后,虚拟人也不会“失忆”,继续学习迭代。

这也说明了,当下厂商不仅是商业模式上的竞争,更是技术先进性的比拼。

技术”三级跳“

从整个虚拟人的技术发展进程来说,大模型带来最核心的改变,是推动着虚拟人从第一阶段看起来“像人”,到能够与人实时互动。

▲图为自象限原创,转载请注明出处

第一阶段,虚拟人厂商比拼的是“谁看起来更像人”?虚拟人厂商的核心技术多在传统的 CG(建模)技术、驱动技术、渲染引擎等等,所以虚拟代言人为代表的表演型虚拟人成为了核心交付产品。

但由于技术的不成熟导致了虚拟人制作成本高企,「自象限」从行业内人士了解到,2022 年,某大厂提供的订制虚拟人价格高达 10 万,这让虚拟人根本无法规模化落地。

大模型来了之后,一方面让虚拟人制作成本进行了大幅度降低;另一方面,AI 技术加速了虚拟人的交互功能,让虚拟人交互起来更像人。

某虚拟人制作厂商曾吐槽:“以前 6888 元一个,卖一个赔一个”,通过智能渲染、智能驱动,流程自动化制作等能力,让虚拟人的制作成本有了 30%-50%的缩减,市面上甚至冒出了“99 元、299 元一个的虚拟人”。

更重要的是,大模型技术加速了虚拟人对语言语义的理解能力,让虚拟人能够从简单的检索生成,到语言文字 AI 驱动,更快速的对人的需求进行回复,甚至做到“秒回”,同时模型也驱动了渲染技术、拟真技术、超写实技术的进化。

举个具体的例子:交互的核心并不只是动作反馈,更是内容的生成和语音的交流,故而,AIGC 技术和语音生成技术成为了当下技术发展的核心。

▲图源:网络

大模型让虚拟人“长了脑子”,有了思考和推理能力,AIGC 技术让虚拟人能够有“想法”,TTS(Text To Speech 文本转语音技术)技术则让虚拟人能够“表达”。

几天前,在 GPT-4V 版本更新,TTS 实现了进步,文本驱动语音有了语气和口吻,在停顿、重音和自然交互程度上有了极大的提升。不仅可以模仿不同的口吻,甚至设定“渣女”时还学会了“夹子音”。

有行业专家推测:TTS 技术端到端成熟后,对行业格局的改变会很大。因为虚拟人真的能够实时交互后,落到产业里才能产生实际价值。

从看起来像人,到实时互动,大模型推动着虚拟人完成二级阶跃,但这也只是一个新的开始。从元宇宙到大模型时代,虚拟人真正备受关注的内在原因在于,他将有可能是下一个虚拟时代的“入口”,背后连接着新的虚拟世界,入口属性让其变的既性感又危险。

国外最早布局虚拟人的微软小冰 CEO 李笛则认为:虚拟人未来是混合模型。

本质上,这两种观点的内核是一致的,只不过李笛的假设更为具体。下一阶段,将进入“虚拟人+”的阶段,虚拟人+RPA 在企业内部打造数字员工;虚拟人+AI Agent,在 C 端打造陪伴型机器人;虚拟人+AR/VR,在 3D 空间打造可见的游戏 NPC;虚拟人+具身智能,让人型机器人有了灵魂。

若将多种技术进行全面融合,虚拟人才真的能够成为“入口级应用”。届时,比拼的赛点将是虚拟人的开放程度、生态建设、场景拓展等一系列综合能力。

当虚拟人被赋予了更多能力,其背后的木偶引线到底还能否掌握在人的手里?

这个答案,也着实让人期待。

用户头像

自象限

关注

还未添加个人签名 2023-07-10 加入

还未添加个人简介

评论

发布
暂无评论
谁在“操控”虚拟人?_虚拟人_自象限_InfoQ写作社区