春节后,必读的 12 篇大模型论文
1.微软新研究:首个用于 Windows OS 交互的 AI 智能体
来自微软公司的研究团队提出了一个用于满足 Windows OS 上的应用程序的用户需求的 UI-Focused 智能体——UFO,它利用了 GPT-Vision 的功能。
UFO 采用双智能体框架,对图形用户界面(GUI)和 Windows 应用程序的控制信息进行细致观察和分析。这使智能体能够在单个应用程序内部以及跨应用程序之间无缝导航和操作,从而满足用户的要求,在跨多个应用程序时也是如此。该框架包含一个控制交互模块,便于在没有人工干预的情况下进行操作,并实现全自动执行。因此,UFO 能够将艰巨耗时的流程转化为只需通过自然语言命令即可完成的简单任务。
研究团队在 9 个流行的 Windows 应用程序中对 UFO 进行了测试,这涵盖了反映用户日常使用情况的各种场景。实验表明,UFO 在满足用户需求方面具有卓越的能力。UFO 是第一个专门为 Windows OS 环境中的任务完成定制的 UI 智能体。
论文链接:
https://arxiv.org/abs/2402.07939
2.SPIN-Diffusion:文生图扩散模型的自我博弈微调
在生成式人工智能(GenAI)领域,与微调大型语言模型(LLMs)方面取得的显著进展相比,微调扩散模型仍然是一个尚未充分开发的前沿领域。虽然如 Stable Diffusion(SD)和 SDXL 等扩散模型依赖于监督式微调,但在它们接触了一定量的数据后,其性能会不可避免地趋于平稳。最近,强化学习(RL)已被用于利用人类偏好数据微调扩散模型,但这需要为每个文本提示至少两张图像(“胜者”和“败者”图像)。
来自加州大学洛杉矶分校的研究团队介绍了一种扩散模型自我博弈微调(SPIN-Diffusion)方法,扩散模型与其早期版本进行竞争,促进了一个迭代自我改进的过程。该方法为传统监督式微调和 RL 策略提供了一个替代方案,并显著提高了模型的性能和对齐度。
在 Pick-a-Pic 数据集上的实验表明,SPIN-Diffusion 从一开始就在与人类偏好对齐和视觉吸引力方面优于现有的监督微调方法。到第二次迭代时,它使用更少的数据,在所有指标上都超过了基于 RLHF 的方法。
论文链接:
https://arxiv.org/abs/2402.10210
3.谷歌新研究:可阅读 20 倍上下文的 AI 智能体
目前的大型语言模型(LLMs)不仅受限于一定的最大上下文长度,也无法鲁棒地处理长输入。为此,来自 Google DeepMind 和 Google Research 的研究团队提出了一个能够将有效上下文长度提高 20 倍的 LLMs 智能体系统——ReadAgent。
受人类交互式阅读长文档方式的启发,研究团队将 ReadAgent 作为一个简单的提示系统。该系统利用 LLMs 的高级语言能力决定将哪些内容一起存储在一个记忆片段中,随后将这些记忆片段压缩成短小片段记忆(gist memories)。当 ReadAgent 需要提醒自己相关细节以完成任务时,就在原始文本中查找段落。
研究团队使用检索方法、原始长上下文以及 gist memories 来对 ReadAgent 进行评估,并与基线进行比较。在 QuALITY、NarrativeQA 和 QMSum 三个长文档阅读理解任务中,ReadAgent 的表现都优于基线,同时将有效上下文窗口扩展了 3-20 倍。
论文链接:
https://arxiv.org/abs/2402.09727
4.DeepMind 新研究:无需 prompt 的思维链推理
在提升大型语言模型(LLMs)的推理能力方面,此前的研究主要集中在如少样本或零样本的思维链(CoT)提示等特定的提示技术上。这些方法虽然有效,但往往涉及手动密集型的 prompt 工程。
来自 Google DeepMind 的研究团队提出了一个问题:LLMs 能否在没有提示的情况下有效地进行推理?研究发现,通过简单地改变解码过程,就能从预训练 LLMs 中引出 CoT 推理路径。
与传统的贪婪解码不同,通过研究前 K 个备选 token,研究团队发现 CoT 路径通常是这些序列中固有的。这种方法不仅绕过了提示的干扰因素,还允许我们评估 LLMs 的内在推理能力。解码路径中出现 CoT 与模型解码答案的高置信度相关。这一置信度指标有效地区分了 CoT 和非 CoT 路径。在各种推理基准上的研究表明,CoT 解码显著优于标准的贪婪解码。
论文链接:
https://arxiv.org/abs/2402.10200
5.DeepMind 新研究:超越 AlphaZero,无需搜索即达大师级国际象棋水平
近期机器学习领域的突破性成功,主要归功于大规模的基于注意力的架构和规模空前的数据集。来自 Google DeepMind 的研究团队研究了大规模训练对国际象棋领域的影响。
与依赖复杂的启发式算法、显式搜索或两者结合的传统国际象棋引擎不同,研究团队在一个包含 1000 万盘棋局的数据集上通过监督学习训练了一个拥有 2.7 亿参数的 Transformer 模型。通过使用 Stockfish 16 引擎提供的行动值(action-values)对数据集中的每个棋盘进行注释,得到了大约 150 亿个数据点。
不需要任何特定领域的调整或显式搜索算法,研究团队的最大模型在与人类对战中达到了 2895 的 Lichess 快棋 Elo 值,并成功解决了一系列富有挑战的国际象棋难题。其模型在没有 MCTS 的情况下,超过了 AlphaZero 的策略和价值网络以及 GPT-3.5-turbo-instruct 模型。
对模型和数据集规模的系统研究表明,只有在足够大的规模下才能产生强大的国际象棋性能。研究团队对设计选择和超参数进行了一系列实验来验证其结果。
论文链接:
https://arxiv.org/abs/2402.04494
6.ChemLLM:化学领域的对话式大模型
大型语言模型(LLMs)在分子性质预测、分子生成、实验方案设计等化学应用领域取得了令人瞩目的进展。但仍然缺乏专门为化学设计的对话式模型。挑战在于,大多数化学数据和科学知识主要存储在结构化数据库中,直接使用这些结构化数据会损害模型保持对话连贯性的能力。
为此,来自上海人工智能实验室的研究团队及其合作者开发了一种基于模板的指令构建方法,将结构化知识转化为普通对话,使其适用于语言模型训练。利用这种方法,研究团队提出了第一个专门用于化学领域的大型语言模型 ——ChemLLM,它能够通过流畅的对话交互执行化学学科的各种任务。
ChemLLM 在化学领域的三项主要任务(即名称转换、分子标题和反应预测)上都优于 GPT-3.5,并在其中两项任务上超过了 GPT-4。尽管 ChemLLM 主要是在以化学为中心的语料库上训练,但它对相关数学和物理任务的适应性也非常出色。此外,ChemLLM 在化学领域的专业 NLP 任务(如文献翻译和化学信息编程)中也表现出了卓越的能力。
论文链接:
https://arxiv.org/abs/2402.06852
7.OS-Copilot:实现可自我完善的通用计算机智能体
近来大型语言模型(LLMs)的激增显著加速了构建数字智能体的进展。但这些智能体大多是为与特定领域(如特定软件或网站)进行交互而设计的。这种狭隘的关注点限制了它们在通用计算机任务中的适用性。
为此,来自上海人工智能实验室、华东师范大学、普林斯顿大学和香港大学的研究团队提出了一个用于构建通用智能体的框架——OS-Copilot,它能够与操作系统(OS)中的各种元素(包括网络、代码终端、文件、多媒体和各种第三方应用程序)进行交互。
研究团队利用 OS-Copilot 创建了一个用于自动执行通用计算机任务的自我完善型具身智能体——FRIDAY。在通用人工智能助手基准测试 GAIA 上,FRIDAY 的表现比以前的方法提高了 35%,通过先前任务中积累的技能,展示了对未知应用的强大通用性。
数据表明,FRIDAY 在最少的监督的情况下学会了控制 Excel 和 Powerpoint,并进行自我完善。OS-Copilot 框架和研究结果为未来的研究提供了基础架构和见解,使计算机智能体具有更强的能力和更广泛的用途。
论文链接:
https://arxiv.org/abs/2402.07456
8.微软、斯坦福新研究:交互式智能体基础模型
人工智能(AI)系统的开发正在从创建静态的、针对特定任务的模型转变为动态的、基于智能体的、能够在广泛应用中表现出色的系统。
来自斯坦福、微软研究院和加州大学洛杉矶分校的研究团队提出了一种交互式智能体基础模型,它采用了一种多任务智能体训练范式,用于在广泛的领域、数据集和任务中训练 AI 智能体。这一训练范式统一了不同的预训练策略,包括视觉遮蔽自动编码器、语言建模和下一步行动预测,从而实现了一个多功能、适应性强的 AI 框架。
研究团队展示了其框架在机器人、游戏 AI 和医疗保健三个不同领域生成有意义且与上下文相关的输出的能力。该模型的优势在于其通用性,可利用机器人序列、游戏数据、大规模视频数据集和文本信息等各种数据源进行有效的多模态和多任务学习。这一方法为开发通用的动作执行多模态系统提供了未来的方向。
论文链接:
https://arxiv.org/abs/2402.05929
9.POKE´LLMON:达到人类对战水平的“宝可梦”智能体
来自佐治亚理工学院的研究团队提出了第一个在战术战斗游戏中达到人类水平性能的 LLM(大型语言模型)具身智能体——POKE´LLMON。
POKE´LLMON 的设计包含以下三种关键策略:第一,上下文强化学习,即刻吸收从战斗中获得的基于文本的反馈,从而迭代完善策略;第二,知识增强生成,它检索外部知识来对抗幻觉,并使智能体能够及时适当地行动;第三,一致性行动生成,用于减轻当智能体面对强大对手并希望逃避战斗时的紧急切换(panic switching)现象。
与人类的在线对战证明了 POKE´LLMON 具有类似人类的战斗策略和即时决策能力,在 Ladder 比赛中达到了 49% 的胜率,在受邀战斗中达到了 56%的胜率。
论文地址:
https://arxiv.org/abs/2402.01118
10.InteractiveVideo:以用户为中心的视频生成模型
来自香港中文大学、北理工和腾讯人工智能实验室的研究团队提出了一个以用户为中心的视频生成框架—— InteractiveVideo。与传统的基于用户提供的图像或文本进行操作的生成方法不同,InteractiveVideo 专为动态交互而设计,它允许用户在整个生成过程中通过各种直观的机制(如文本和图像提示、绘画、拖放等)对生成模型进行指导。
研究团队提出了一种协同多模态指令机制,旨在将用户的多模态指令无缝集成到生成模型中,从而促进用户输入与生成过程之间的合作和响应式交互。这种方法可通过精确有效的用户指令对生成结果进行迭代和细粒度优化。有了 InteractiveVideo,用户就可以灵活地对视频的关键部分进行精心定制,如绘制参考图像、编辑语义、调整视频动作,直到完全满足其需求。
论文链接:
https://arxiv.org/abs/2402.03040
11.ConsiStory:无需训练的文生图模型
文生图模型允许用户通过自然语言指导图像生成过程,将创意灵活性提升到一个新的水平。但使用这些模型在不同的提示中始终如一地描绘同一主题仍具挑战。现有方法通过微调模型来教它描述用户提供的特定主题的新词,或为模型添加图像条件。这些方法需要对每个主题进行长时间的优化或大规模的预训练,同时也很难将生成的图像与文本提示对齐,在描述多个主题时也存在困难。
为此,来自英伟达和特拉维夫大学的研究团队及其合作者提出了一种无需训练的方法——ConsiStory,它通过共享预训练模型的内部激活,实现一致的主题生成。研究团队引入了主题驱动的共享注意力块和基于对应关系的特征注入,以促进图像之间的主题一致性。
为了在保持主题一致性的同时鼓励布局多样性,研究团队将 ConsiStory 与一系列基线进行了比较,无需任何优化步骤,ConsiStory 在主题一致性和文本对齐方面展示了最先进的性能。ConsiStory 可以自然地扩展到多主题场景,甚至可以实现对常见对象的无训练个性化。
论文链接:
https://arxiv.org/abs/2402.03286
12.Direct-a-Video:用户引导摄像机移动和物体运动生成定制视频
在文生视频扩散模型的实际应用中,用户往往希望能够独立控制物体的运动和摄像机的移动来实现自定义视频创作。但当前的方法缺乏以解耦方式下独立控制物体运动和摄像机移动的焦点,这限制了文生视频模型的可控性和灵活性。
为此,来自香港城市大学、快手公司和天津大学的研究团队提出了 Direct-a-Video,该系统允许用户独立指定一个或多个物体的运动或摄像机的运动,让用户来导演视频。研究团队提出了一种简单有效的策略来独立控制物体运动和摄像机移动。即利用模型固有的先验,通过空间交叉注意力调制控制物体运动,而无需额外优化。对于摄像机运动,研究团队引入了新的时间交叉注意层来解释定量摄像机移动参数。
研究团队还采用了一种基于数据增强的方法,在小规模数据集上以自我监督的方式训练这些层,消除了对显式运动注释的需求。这两个组件可独立运行,允许独立或组合控制,并且可以推广到开放域场景。实验证明了这一方法的优越性和有效性。
论文链接:
版权声明: 本文为 InfoQ 作者【学术头条】的原创文章。
原文链接:【http://xie.infoq.cn/article/fae53aef4c0398b538175da25】。文章转载请联系作者。
评论