昆仑万维颜水成受邀出任 2024 北京智源大会程序主席及视觉大模型论坛主席
6 月 15 日,2024 中关村论坛系列活动北京智源大会举办第二日,“视觉大模型”专题论坛顺利召开。昆仑万维兼天工智能首席科学家颜水成受邀出任北京智源大会程序主席及视觉大模型专题论坛主席。专题论坛上,颜水成与论坛嘉宾共同探讨业内顶尖视觉大模型与多模态大模型的前沿进展,并就模型设计、算法搭建、数据模态、训练资源等问题展开交流。
会上,智源研究院还推出了通用计算机控制框架 Cradle,并宣布与昆仑万维等展开落地合作。Cradle 能够让智能体像人一样看屏幕,通过鼠标、键盘完成计算机上的所有任务,不仅可以根据提示自主学习玩游戏,还能对图片、视频进行有想象力的编辑。Cradle 由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成,可进行 “反思过去,总结现在,规划未来”的强大决策推理。不同于业界其他方法,Cradle 不依赖任何内部 API 实现了通用性。
近年来,随着大模型“文本-图像”“文本-视频”等领域取得突破性进展,以 Midjourney、Sora、GPT-4o 等为代表的一系列多模态项目迎来爆发,多模态视觉大模型正日益成为人工智能领域的焦点。
颜水成表示,本轮人工智能技术爆发始于语言大模型,而在今年以来,以 Sora 为代表的多项原生多模态大模型都取得了可喜的成绩,多模态视觉大模型的重要性愈发凸显。多模态大模型能够融合文本、图像、视频、音频等多种信息形式,实现更为全面、深入的理解与分析,综合运用多种感知方式来理解世界,是通向通用人工智能的重要路径。
同时,颜水成指出,当前越来越多的学术与产业界的研究重心开始往通用大模型倾斜,在视觉与多模态大模型领域,也涌现出了单模态视觉大模型、跨模态/多模态融合大模型等不同研究思路。研究人员是否能够离开文本独立训练通用视觉大模型,也是一个值得工业与学术界进一步探索的前沿方向。
今年 4 月,由颜水成教授带队,昆仑万维、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了 Vitron 通用像素级视觉多模态大语言模型。这是一款统一的像素级视觉多模态大语言模型,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,能够全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务,展示了研发大一统的视觉多模态通用大模型的巨大潜力,也为下一代通用视觉大模型的终极形态奠定了基础。
近年来,随着大模型技术蓬勃发展,视觉与多模态大模型领域相关研究取得多项突破性进展。多模态视觉大模型能够通过融合多种模态的信息,帮助人工智能更好地理解和处理现实世界中的复杂问题,从而推动通用人工智能的实现。昆仑万维坚定践行“All in AGI 与 AIGC”战略,不断推动语言、视觉、多模态等领域大模型技术的前沿发展与应用落地,为人工智能生态建设贡献力量。
评论