逐浪 100 人丨对话魔珐科技 CEO 柴金祥:AI 时代,虚拟人的边界在哪?
Photo by 《机械姬》剧照
©自象限原创
访谈丨程心
生成式 AI 的爆发,带领全民到达 AIGC 的新时代。
在这个新时代,虚拟人作为一种新兴的内容载体,不仅在娱乐、教育、零售等领域中扮演着越来越重要的角色,也成为了品牌与消费者之间互动的新媒介。
在去年虚拟人技术发展的一年中,3D 虚拟人与 2D 虚拟人成为了行业一道极为明显的分水岭。2D 虚拟人通常限于平面的视觉表现,适用于传统的社交媒体和网页内容。相比之下,3D 虚拟人则提供了一个三维的、可以与之互动的世界,它们不仅能够提供更加真实的视觉体验,更是未来“入口级的应用”。
从技术的发展来看,虚拟人正从单一的形象展示向更加综合和多元的“虚拟人+”阶段过渡。这一阶段的虚拟人不再仅仅是一个静态的形象,而是成为了一个具备多种功能和服务能力的智能实体。它们可以是虚拟客服、虚拟教师、虚拟主播,甚至是虚拟健康顾问。同时,虚拟人的应用场景正在迅速扩展,从而推动了相关行业的创新和变革。
在 2024 年开年,「自象限」关注到虚拟人已经在和其他技术进行结合。以 3D 虚拟人头部厂商魔珐科技为例,在其近期迭代的产品“有言”中,3D 虚拟人进入了 3D 视频空间,用户可以直接利用该平台制作 3D 视频,包括脚本、虚拟人形象、AI 语音合成、灯光布景等多维度的综合体现。
这也引出了另一个发人深省的问题,在技术发展的早期阶段,企业面临着技术驱动与产品驱动的战略选择。技术驱动的路径强调技术创新和突破,可能会带来颠覆性的变革,但也存在市场接受度和商业化应用的不确定性。产品驱动则更注重市场需求和用户体验,通过满足用户的实际需求来推动技术的商业化。这两种策略的选择将直接影响企业的发展轨迹和市场竞争力。
在这个行业发展的关键时期,魔珐科技作为拥有 3D 虚拟人及全栈 AIGC 技术的厂商,选择了一条产品驱动的发展路径。在《逐浪 100 人》的第二期,「自象限」对话魔珐科技创始人柴金祥,探讨 AIGC 时代,虚拟人的边界以及技术和产品的平衡。
▲魔珐科技创始人兼 CEO 柴金祥 受访者提供
有言,有话说
自象限:先聊聊这次有言的升级吧,我们能够感受到这是一款不一样的产品,和以往的产品相比,这一次升级特殊在哪?
柴金祥:与传统的 2D 视频生成工具不同,有言具有全栈的 AIGC 技术,能够一键生成高质量的 3D 视频内容。这意味着用户无需繁琐的拍摄和后期制作流程,就能够创造出具有深度和真实感的视频体验。我们的 3D 虚拟人角色库丰富多样,用户可以根据需要选择不同的角色和场景,实现个性化的视频创作。
在操作方面,这次升级加强了内容的可控性和编辑能力。过去,视频创作者往往受限于视频素材的可用性和编辑难度。而现在,有言提供了从角色动作、表情到场景、灯光、声音等全方位的编辑功能,使得创作者可以精准控制每一个细节,确保视频内容完全符合他们的创意和需求。
并且我们针对了多场景的应用进行了优化。有言支持团队协作、多语言输出,可以生成多语言视频助力产品出海,这对于全球化的市场环境尤为重要。无论是知识分享、教育培训还是品牌宣传,有言都能提供强大的支持。
此外,我们还关注到了 3D 内容与未来技术如 VR/AR 的结合。有言生成的 3D 视频内容可以直接适配未来的虚拟 3D 世界,这意味着我们的产品不仅仅是为了当前的市场,更是为了即将到来的元宇宙时代做准备。
自象限:技术上的难度体现在哪?相较于以往的虚拟人或者 3D 视频产品有哪些创新?
柴金祥:在这个用户使用简单的产品中,是很多种复合型技术形成的一个综合型的创新解决方案,举几个例子:
三维内容的 AIGC 化:传统的 3D 内容制作依赖于专业团队和复杂的软件工具,有言实现了从 3D 虚拟人形象建模、绑定、动作、表情的 AIGC 化,比如说人肌肉手工制作的过程是非常困难的,但是我们做到了 AIGC 化,一个人的能力,他的表情、眼神、手势、动作,声音是 AIGC。另外灯光、镜头也需要通过最佳实践,比如发布会的镜头切换需要用专业摄影师专业的方式,其实也是三维镜头,灯光模拟了专业灯光师进行调控,这些都是 AIGC。
目前来说,我们把最难的部分 AIGC 化,少部分采用模板库的方式,比如说视频包装的片头片尾、BGM、字幕展示、贴纸文字等,随着数据增多会逐步实现从 UGC 到 AIGC 的转化。
它的难点其实还是在于高质量 3D 数据的缺乏,3D 内容的生成需要大量的高质量数据作为训练基础。魔珐科技通过多年的积累,建立了庞大的 3D 数据库,这些数据不仅包括角色模型,还包括动作、表情、场景等,还要满足用户的实时渲染与编辑需求,这要求后端系统具备高效的渲染能力和灵活的编辑接口,技术上的挑战在于如何保证渲染速度和视频质量的同时,提供流畅的用户体验。
自象限:我们认为虚拟人正在走向虚拟人+,您怎么看,未来魔珐会探索更多+之外的边界么?
柴金祥:其实我们真正在做的是 3D 超写实虚拟 AIGC + X, 这一趋势意味着虚拟人技术将不再局限于单一的应用场景,而是会与更多行业、领域和技术相结合,形成更加丰富和多元的产品和服务。虚拟人+的概念代表了一种开放性和扩展性,它不仅能够增强现有的业务流程,还能够创造全新的用户体验和商业模式。
有言生成的 3D 视频,如果你今天放在 Vision Pro 里面, AR/VR 中看到的就是 3D 的景象,虚拟人可能就在站在你面前,这就是 3D 视频+VR/AR 的一个应用。今天本质上是因为我们只能在 PC 端或移动端看到 3D 视频,因此视觉上 3D 场景与 2D 场景的感受没有那么强烈。
对于未来,魔珐科技将持续探索虚拟人技术的各种可能性,并推动其在更多“+”之外的边界的应用。半年以后我们可能也会把内部 3D 超写实虚拟人 AIGC 全栈能力做成开放平台,就像 ChatGPT 的 API 接口调用一样,无论是 C 端、 B 端都可以调用 API,使用背后的技术能力。
什么是魔珐?
自象限:您不断提到产品战略,所以魔珐是一家产品公司么?
柴金祥:是的,魔珐科技是一家以 3D 虚拟人和 AIGC 为核心的 AI 科技公司。我们的战略重点在于利用人工智能 AIGC 技术,创造出能够为用户带来实际价值的产品。所以你会发现我们从来不发 Demo,我们推向市场时就是以产品的形态落地,技术有没有用,最终要落在产品中,看是否能给用户带来价值。
我认为不仅要关注技术的先进性,还注重产品的实用性、易用性和市场适应性。我觉得将复杂的技术转化为简单、直观且高效的用户体验,这个才是最重要的。无论是 3D 虚拟人、AIGC 技术还是 VR/AR 集成,我们的最终目标都是打造出能够被广泛接受和使用的产品。
其实我们产品战略是“1 + 3”,“1”是我们底层有技术的基础设施,以 3D 超写实虚拟人 AIGC 操作系统为核心,让所有人都能够即插即用。“3”是指有言、有灵、有光三个消费级产品平台,后面会有我们的直播产品和有灵一对一的交互虚拟人产品,越来越精细化。
自象限:为什么是产品驱动而不是技术驱动?背后的逻辑是是什么?
柴金祥:技术驱动的公司可能会面临技术过时或市场需求变化的风险,而产品驱动的公司本质上是以用户需求为核心,将用户的需求转换实际的价值,技术在进步,但用户的需求和行业 kown-how 有迹可循。比如 3D 视频制作过程中的团队协作能力几乎是一个刚需能力,无论技术怎么变,这个场景是不会变的。
相比于 Sora 这样的 2D 视频生成的产品,首先他要用户具备一定的技术背景,或者需要通过反复尝试和调整输入参数来生成满意的视频内容,其次它不可编辑,视频中一旦发生错误是不可更改的,在内容生成自由度方面有一定的限制,而且 Sora 目前还是还是以生成“作品”为主,没有办法在商业的场景中使用,也就无法变成生产力。
从技术的角度来看,我之前提到了 3D 视频 AIGC 的一个技术难点在于高质量数据的不足,那么我们以产品的形式向行业提供生产力工具,我们的客户也通过有言自主生成了很多高质量的 3D 视频数据来反哺我们的模型,去解决数据源头不足的问题,生产力工具像是一个“钩子”,以此形成飞轮效应。
过去十年,无论是 B 端还是 C 端,ChatGPT、Canva、还是 Figma,你会发现一旦到了产品和市场需求匹配,增长就特别快,就是这个道理。
自象限:如今 AIGC 产品的核心能力还是体现在降本增效的方面,有哪些具体的数据可以分享?
柴金祥:首先肯定是虚拟人制作的成本会逐渐变低。我们最早的时候企业设计专属的虚拟人形象实际成交单价都是大几十万,我们自己的成本肯定也要几十万,但是就像上面讲的,我们的客户越来越多,数据越来越丰富,技术的进步使得内容生产变得越来越简单,从 PGC 到 UGC 再到 AIGC,门槛越来越低,但质量会越来越好。
下一个版本现在我们把定制化的形象转化成了虚拟人生成的产品,企业可以自己“捏脸”,这个成本就是很低的了。到今年下半年,当一个普通人就能通过 AIGC 定制一个 3D 虚拟人的时候,AIGC 的核心是使得内容创作的边际成本接近于零。
其次是 3D 视频的制作的成本在降低,亲身经历过动画行业的就知道,像有言生成的高质量动画一秒钟的成本在 500 块钱左右,如今我们已经把它 AIGC 化了,企业用户通过按月付费的方式就可以让所有的员工使用。
举一个头部客户的案例,这个集团客户要了 100 个账号,实现每天生产 30 多个视频,每一个账号背后有 4 个人轮换在用,两个月不到的时间里,做了近 600 条视频总计近 3000 分钟,这个成本和效率在以前是绝对想象不到的。
自象限:关于魔珐商业化的部分,您刚提到从项目定制化转向标准化,这中间有什么契机,是如何考虑的?
柴金祥:其实从公司一成立我们就想做产品化,只是我们那时候能力没有到,做 business 到 eventually,这不是一种契机反而是一种坚持,我们的美术水平在逐渐提升、技术在提升、算法在优化,当技术达到一定成熟期以及公司规模到一定体量的时候,才能实现标准化的产品落地。
反过来讲,当 ChatGPT 刚开始做的时候,1.0、2.0 时期没有人相信它,只有到了 3.5 的时候它的能力达到了,大家才会觉得“噢,这个很了不起”,就像换做十几年前的电动车,所有都觉得马斯克就是个疯子。凡事只能先做到证明可行性,才有可能落到用户层面。
其次随着时间的推移,我们发现市场上对于高效、低成本、易于使用的视频制作解决方案的需求日益增长。客户不仅需要高质量的定制服务,还需要能够快速响应市场变化、灵活调整内容生产的标准化产品,我认为这是一种“双向奔赴”,最重要的难点是能不能实现。
早期我们自己的成本无论是研发成本还是人才成本都很高,我们自己也在攻克这些问题,但是现在有言最大的成本其实就是算力成本,所以我们需要更多的用户来对算力成本进行摊薄,用户增长,我的 PMF 自然就能达到。
评论