写点什么

智谱 AI 再放“大招”,30 秒将任意文字生成视频

作者:Alter
  • 2024-07-26
    浙江
  • 本文字数:3478 字

    阅读完需:约 11 分钟

智谱AI再放“大招”,30秒将任意文字生成视频

继文本生成、图像生成后,视频生成也加入到了“内卷”行列。

7 月 26 日的智谱 Open Day 上,在大模型赛道上动作频频的智谱 AI,正式推出视频生成模型 CogVideoX,并放出了两个“大招”:

一个是智谱清言打造的视频创作智能体清影,可使用文本或图片生成时长 6 秒、1440x960 清晰度的高精视频。

另一个是智谱清言小程序上线的“让照片动起来”,可以直接在小程序中上传照片,输入提示词生成动态视频。

不同于一些小范围开放或预约才能使用的产品, 清影智能体面向所有用户开放,输入一段提示词,选择自己想要的风格,包括卡通 3D、黑白、油画、电影感等等,配上清影自带的音乐,就能生成充满想象力的短视频。企业和开发者也可以通过调用 API 的方式,体验文生视频和图生视频能力。

由此引出了这样一个问题:目前视频生成类产品仍处于“可玩”的阶段,距离商用仍然有不小的鸿沟,智谱 AI 的进场将产生什么样的影响?

01 更快更可控的“清影”

在 Sora 引爆视频生成赛道后,行业内掀起了一场连锁反应,先是 Runway、Pika 等产品在海外市场走红,国内在 4 月份以后也陆续曝光了多个文生视频类大模型,几乎每个月都会有新产品上线。

市场层面越来越热闹,体验上却陷入了相似的困局,确切的说是两大绕不过去共性问题:

一是推理速度慢,哪怕只是 4 秒的视频,也需要 10 分钟左右才能生成,而且视频越长,生成的速度越慢;

二是可控性差,在限定的语句和限定的训练样本内,可以有不错的效果,一旦“越界”就会出现“群魔乱舞”的情况。

有人将其比作为游戏中的“抽卡”,多试几次才会生成想要的效果。然而一个无法掩盖的事实是,倘若文生视频要尝试 25 次才能生成一次可用的,每次生成的时间动辄 10 分钟,意味着想要获得一条几秒中的视频,需要长达四个多小时的时间成本,所谓的“生产力”也就无从谈起。

在智谱清言里试用了“清影”的文生视频和图生视频功能后,我们发现了两个令人惊艳的体验:生成一条 6 秒的视频,只需要花费 30 秒左右,推理时间从分钟级被压缩到了秒级;采用“镜头语言+建立场景+细节描述”的提示词公式,一般“抽两三次卡”就能够获得让人满意的视频内容。

以文生视频的场景为例,给“清影”输入“写实描绘,近距离,猎豹卧在地上,身体微微起伏”的指令后,一分钟内就生成了一段“以假乱真”的视频:风吹动草地的背景,猎豹不断晃动的耳朵,随着呼吸起伏的身体,甚至每一根胡须都栩栩如生……几乎可以被误认为是近距离拍摄的视频。

为什么智谱 AI 可以“跳过”行业内普遍存在的痛点?因为所有的技术问题,都可以通过技术上的创新解决。

隐藏在智谱清言视频创作智能体“清影”背后的,是智谱大模型团队自研打造的视频生成大模型 CogVideoX,采用了和 Sora 一样的 DiT 结构,可以将文本、时间和空间融合。

通过更好的优化技术,CogVideoX 的推理速度较前代模型提升了 6 倍;为了提升可控性,智谱 AI 自研了一个端到端视频理解模型,为海量的视频数据生成详细的、贴合内容的描述,以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,并能够理解超长复杂 prompt 指令。

如果说市面上的同类产品还在“可用”上下功夫,创新上“全垒打”的智谱 AI 已经进入了“好用”的阶段。

直接的例子就是智谱清言同步提供的配乐功能,可以为生成的视频配上音乐,用户需要做的仅仅是发布。无论是没有视频制作基础的小白用户,还是专业的内容创作者,都可以借助“清影”让想象力化为生产力。

02 Scaling Law 再次被验证

每一次看似不寻常的背后,都有其必然性。在同类产品要么不开放使用,要么还处于阿尔法版本的阶段,“清影”之所以成为人人可用的 AI 视频应用,离不开智谱 AI 在频生成大模型上的多年深耕。

时间回到 2021 年初,距离 ChatGPT 的走红还有近两年时间,诸如 Transformer、GPT 等名词只是在学术圈讨论时,智谱 AI 就推出了文生图模型 CogView,可以将中文文字生成图像,在 MS COCO 的评估测试中超过 OpenAI 的 Dall·E,并在 2022 年推出了 CogView2,解决了生成速度慢、清晰度低等问题。

到了 2022 年,智谱 AI 在 CogView2 的基础上研发了视频生成模型 CogVideo,可以输入文本生成逼真的视频内容。

彼时外界还沉浸在对话式 AI 的场景中,视频生成并不是焦点话题,但在前沿的技术圈里,CogVideo 已经是炙手可热的“明星”。

比如 CogVideo 采用的多帧率分层训练策略,提出了一种基于递归插值的方法,即逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段,赋予了 CogVideo 控制生成过程中变化强度的能力,有助于更好地对齐文本和视频语义,实现了从文本到视频的高效转换。

Meta 推出的 Make-A-Video、谷歌推出的 Phenaki 和 MAGVIT、微软的女娲 DragNUWA 以及英伟达 Video LDMs 等等,不少视频生成模型都引用了 CogVideo 的策略,并在 GitHub 上引起了广泛关注。

而在全新升级的 CogVideoX 上,诸如此类的创新还有很多。比如在内容连贯性方面,智谱 AI 自研了高效三维变分自编码器结构(3D VAE),将原视频空间压缩至 2%大小,配合 3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

也就是说,视频创作智能体“清影”的出现绝非偶然和奇迹,而是智谱 AI 日拱一卒式创新的必然结果。

大模型行业有一个著名的定律叫 Scaling Law,即在不受其他因素制约时,模型的性能和计算量、模型参数量、数据大小呈现幂律关系,增加计算量、模型参数量或数据大小都可能会提升模型的性能。

按照智谱 AI 官方给出的信息,CogVideoX 的训练依托亦庄高性能算力集群,而且合作伙伴华策影视参与了模型共建、另一家合作伙伴 bilibili 参与了清影的技术研发过程。沿循这样的逻辑,“清影”在生成速度、可控性上超预期的体验,无疑再一次印证了 Scaling Law 定律的有效性。

甚至可以预见,在 Scaling Law 的作用下,后续版本的 CogVideoX,将拥有更高分辨率、更长时长的视频生成能力。

03 “多模态是 AGI 的起点”

一个可能被习惯性忽略的信息在于,智谱 AI 并没有将“清影”作为独立的产品,而是以智谱清言的智能体上线。

个中原因可以追溯到智谱 AI CEO 张鹏在 ChatGLM 大模型发布会上的演讲:“2024 年一定是 AGI 元年,而多模态是 AGI 的一个起点。如果想要走到 AGI 这条路上去,只停留在语言的层面不够,要以高度抽象的认知能力为核心,把视觉、听觉等系列模态的认知能力融合起来,才是真正的 AGI。”

5 月份的 ICLR 2024 上,智谱大模型团队在主旨演讲环节再次阐述了对 AGI 技术趋势的判断:“文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。”

过去一年多时间里,大模型的热度一浪高过一浪,却未能摆脱“缸中大脑”的局限,应用场景十分有限。而大模型想要脱虚向实,想要走进实际的生活和工作中创造价值,必须要长出手脚的执行能力,比如在语言能力外延伸出听觉和视觉的能力,并通过这些能力和物理世界进行无缝连接。

再来审视视频生成大模型 CogVideoX 和视频创作智能体“清影”,无疑可以得出一些不一样的答案。

CogVideoX 的文生视频、图生视频能力,可以看作是对认知能力的拆解,先实现单项能力的突破;以视频创作智能体形态出现的“清影”,可以看作是对不同模型能力的收拢,在原生多模态大模型还不太成熟的情况下,用户可以通过多个智能体的组合,高效且精准地解决现实问题。

可以佐证的是,在智谱 AI 的大模型矩阵里,已经涵盖具备视觉和智能体能力的 GLM-4/4V、推理极速且高性价比的 GLM-4-Air、基于文本描述创作图像的 CogView-3、超拟人角色定制模型 CharacterGLM、擅长中文的向量模型 Embedding-2、代码模型 CodeGeeX、开源模型 GLM-4-9B 以及视频生成大模型 CogVideoX,客户可以根据不同的需求调用不同大模型,找到最优解。

而在 To C 应用方面,目前智谱清言上已经有 30 多万个智能体,包括思维导图、文档助手、日程安排等出色的生产力工具。同时智谱 AI 还推出了由数十万个 AI 体组成的多智能体协作系统——清言 Flow,不仅限于单一智能体的交互,涉及多轮、多态、多元的对话交互模式,人们仅需通过简洁的自然语言指令,就能处理高度复杂的任务。

做一个总结的话:现阶段距离真正意义上的 AGI 还有不小的距离,但智谱 AI 正在用“单项突破,能力聚合”的方式,提前让 AGI 照进现实,让强大的大模型能力真正用来帮助人们的工作、学习和生活。

04 写在最后

需要正视的是,目前视频生成大模型对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,仍存在非常大的提升空间。

在通往 AGI 的路上,智谱 AI 等大模型厂商不应该是孤独的行路者。作为普通用户的我们,也可以是其中的一员,至少可以在智谱清言上用自己的“脑洞”生成有趣的视频,让更多人看到大模型的价值,利用 AI 提升创作效率的同时,加速多模态大模型不断走向成熟。

用户头像

Alter

关注

还未添加个人签名 2022-03-25 加入

还未添加个人简介

评论

发布
暂无评论
智谱AI再放“大招”,30秒将任意文字生成视频_Alter_InfoQ写作社区