2022,我们追逐群星,也在追逐 AIGC 的无尽可能
2022 年,是中国人追逐群星的里程碑之年。
今年 10 月 31 日,中国天宫空间站的第二个科学实验模块——梦天实验舱,搭载长征五号 B 遥四运载火箭发射升空。随着之后天实验舱成功与之前发射的天和核心舱完成精准对接,中国空间站历史性地完成了“合体”。至此,中国空间站距离建成仅剩一步之遥。
从天舟四号到天舟五号,从问天舱到梦天舱,从神舟十四号到神舟十五号,取得一系列航天成果的 2022,同时也是中国载人航天工程立项实施 30 周年。三十年奋进勃发,让中国人史无前例地接近星辰,接近宇宙中的无限可能。
而在科技赛场的另一条关键跑道上,2022 同样至关重要。近日,新华社与百度文心一格联合推出了一支 AIGC 视频——《AI 描绘天宫盛宴》。这支视频画面全部由 AI 自动生成,用充满中国韵味的笔触,回顾了中国载人航天的三十年辉煌历程。众多网友感叹,AI 生成内容竟然在极短时间内就达成了这种效果,实在难以想象。
2022 年,被业界称为 AIGC 元年。伴随着 AI 作画大规模商业化落地,这一能力开始为全球用户所接受。AIGC 的饱含巨大商业价值的下一站,就是 AI 生成内容。而在 AIGC 的“宇宙探索”中,中国人同样不落人后。以百度文心大模型为代表的中国力量,正在带领全球 AI 产业接近 AIGC 的无限可能。
2022 年,文心大模型在 AI 生成内容这条赛道上不停探索,给出了一系列让人眼前一亮的成绩。在其背后,既可以看到大模型在 AI 作画领域的技术趋于完备,又可以看到中文、中国文化背景下的 AIGC 全面发展。面向 AIGC 的群星,文心大模型已经成为中国 AI 产业的一座“空间站”。
探索 AIGC 更多可能,文心大模型的成绩单
在全球经济普遍遇冷的 2022,AI 技术却是一片繁荣。从 AI 作画到 AI 对话,各种 AI 技术创新在全球范围内火爆出圈。而所有 AI 能力中最让人看好其商业前景的,则是 AIGC 的下一站——AI 生成内容。
我们处在一个被短视频颠覆和重构的时代。短视频平台已经在全球范围内形成了用户最多、影响力大的媒介形式。AI 与视频的结合,正变成新的巨型风口。在 2022 年,百度文心大模型先后带来了一系列视频生成作品,其完善的效果与创意性地表达,赢得了业界与公众的一致认可。
在百度 2022 万象大会期间,数字人度晓晓作词作曲演唱的 MV《启航星》正式上线。这也成为成为首支全 AIGC 生成的音乐 MV。《启航星》MV 视频依托百度推出的 AI 艺术和创意辅助平台——文心一格,根据歌词自动生成画面。其不仅探索了数字人、AI 生成内容等技术的边界,更为 MV 制作、AI 与音乐产业结合展现出了清晰的路径。
10 月 20 日,《人民日报》发布 AI 根据二十大报告中部分词语描绘的未来中国图景视频,该视频由百度飞桨、文心一格提供技术支持。根据内容描述,文心大模型准确描绘出了未来中国的发展图卷。笔触老练自然,完全没有传统意义上认为 AIGC 内容会有的生涩感与不和谐。
等到《AI 描绘天宫盛宴》到来,我们可以看到文心大模型生成的视频内容更加具有整体性风格,画面调动也更有逻辑性,并且内容能够与中国传统文化,比如《西游记》中蟠桃盛宴,进行有机且巧妙的结合。
在这一哥哥 AI 生成内容背后,我们可以看到文心大模型走出了两条路:技术之路,与文化之路。
AI 生成内容的技术难点,正被一个个打破
“最先进的 AI 动画生成技术在中国。”
这句话,是今年 8 月文心 ERNIE-ViLG 2.0 模型通过百度 API 服务的方式进行开放公测后,一位外国开发者留在评论区的。几个月之后,这样的肯定依旧令我们振奋。数年前,绝大部分人可能会觉得中国难以在 AI 生成内容中实现领先,但现在这一切已经做到了。
究其根本,在于文心大模型持续面向 AIGC 的技术挑战发起一波波冲锋。今年在文心大模型支持的多部破圈视频里,我们可以看到其中的技术力表现持续升级。简单感、不流畅、缺乏创意风格等 AI 生成内容的传统问题,正在一个个被文心打破。
在这背后,是文心大模型 ERNIE-ViLG 2.0 跨模态图文生成能力的帮助和支持。基于 ERNIE-ViLG 2.0,可以实现从文本内容到视频内容中,转化的可控性与细节描述能力不断提升。而这源于秉承着百度在文心大模型当中探索的知识增强方向,为 ERNIE-ViLG 2.0 找到了核心的升级方向。ERNIE-ViLG 2.0 采用基于知识增强算法的混合降噪专家建模,是全球首个将知识增强与 AIGC 相互结合的大模型。其最终表现,在权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等主流模型,在 AI 生成内容等方面,取得全球业界的最佳效果,在语义可控性、图像清晰度等方面均展现出了显著优势。
从《AI 描绘天宫盛宴》中,我们可以看到画面可控性、复杂构图和细节刻画能力都达到了新的水平高度。AI 生成内容不再是生成一帧帧图片合成视频,而是基于统一风格,完整、连续地展现出了视频全貌。这就是知识增强路径为 AIGC 带来的不同之处。
当时间来到 2023,中国 AI 行业、AI 开发者,以及广大视频创作者,将得到全球领先的 AI 生成内容能力作为发展引擎——这就是文心大模型,这座“空间站”的战略意义。
更懂中国,更懂未来
另一方面,我们可以在《AI 描绘天宫盛宴》看到一种我们非常熟悉的审美风格,其神韵非常类似 1961 年上海美术电影制片厂制作的《大闹天宫》。那既是中国动画史的开端,也是深刻国民 DNA 的文化记忆。
用这种审美意蕴展现中国航天三十年的故事,是非常容易获得国人共鸣,产生审美与文化认同的。这一点其实非常重要,AIGC 的最终价值在于文化传播。试想一下,如果 AI 生成的内容不懂一个国家的语言、文化、典故以及审美意味,那么最终做出来的内容是否可能实现高效率、有认同的传播?
从这个角度看,中国的 AI 大模型发展与 AIGC 能力建设就显得更加富有不可替代性。我们不能等到 AI 生成内容大规模落地时,一味照搬符合他国文化与英语语言习惯的内容给中国观众看。而文心对中文数据、中文知识的学习,以及对中国文化、中国审美的理解,则适当地填补了这个空白。从文心一格对中文的理解能力,以及最终生成内容中展现的中国意境,就可以看到目前适合中国环境的 AIGC。我们不需要在基础能力和技术上进行漫长的模仿与追赶,而是可以站在更高点,直视 AIGC 最前沿、最令人激动的可能性。
2022 年,是中国人追逐群星之年,也是中国人追逐 AIGC 之梦的一年。伴随着更多 AI 生成内容火爆出全,更多 AIGC 的行业化方案落地,更多平台化能力开放,文心一格正在打开科技与文化融合创新的想象空间,文心大模型正在成为 AIGC 发展的新引擎。
在文心这座“空间站”,我们已能看到智能世界的浩瀚星空。
评论