MIAOYUN | 每周 AI 新鲜事儿(09.27-10.11)

9 月底至 10 月初,值此双节同庆之际,全球 AI 领域迎来了一轮密集的技术与产品发布浪潮,DeepSeek、智源研究院、Anthropic、智谱、OpenAI、IBM、腾讯、Google、xAI 等多机构相继发布新一代大模型,在追求极致性能的同时,更注重实用性与效率。同时,行业重点转向构建智能体(Agent)生态,多机构发布了平台级工具(如 AgentKit、Plugins),推动 AI 从工具向自主代理演进,在核心能力上实现显著跨越,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 大模型
深度求索发布「DeepSeek-V3.2-Exp」模型
9 月 29 日,深度求索发布「DeepSeek-V3.2-Exp」模型,引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。得益于新模型服务成本的大幅降低,官方 API 价格也相应下调,开发者调用 DeepSeek API 的成本将降低 50% 以上。
参考:DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
北京智源人工智能研究院开源发布「RoboBrain-X0」
9 月 30 日,北京智源人工智能研究院正式开源发布「RoboBrain-X0」,一个能够在零样本泛化、少量样本微调条件下,驱动多种不同真实机器人完成复杂任务的跨本体基座大模型。「RoboBrain-X0」源自「RoboBrain」的多模态基座能力,在「RoboBrain 2.0」数据基础上,进一步融合了真实机器人动作数据。通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。
参考:智源 RoboBrain-X0 开源,打破机器人跨本体泛化困境
Anthropic 发布具备上下文编辑等新功能的「Claude Sonnet 4.5」
9 月 30 日,Anthropic 发布具备上下文编辑等新功能的「Claude Sonnet 4.5」,号称是全球最强大的构建复杂代理的模型,能保持超过 30 小时专注处理复杂任务,在考察真实编程水平的 SWE-bench Verified 测试和专门测试真实计算机任务的 OSWorld 基准里,直接登顶业界第一。此外,还同步推出「Claude Agent SDK」开发工具包及系列产品升级,整合了 Claude Code 底层基础设施,提供内存管理、权限系统和子智能体协调等功能,适用于广泛任务场景而非仅限编程。
参考:Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生
智谱发布旗舰模型「GLM-4.6」,代码能力全面进阶
9 月 30 日,智谱发布旗舰模型「GLM-4.6」,是智谱最强的代码 Coding 模型,较「GLM-4.5」提升 27%。在真实编程、长上下文处理(上下文窗口由 128K 扩展至 200K)、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升;并首次在寒武纪、摩尔线程国产芯片上实现 FP8+Int4 混合量化部署。
OpenAI 发布「Sora 2」视频生成模型及配套应用
10 月 1 日,OpenAI 发布新一代 AI 视频生成模型「Sora 2」及 IOS 配套应用「Sora」。「Sora 2」采用文本条件扩散模型+Transformer 的方案,能够根据文本提示生成高逼真度的视频,首次实现“音画同步”,还能生成各类复杂环境声,在物理准确性、逼真度上,一举刷新 SOTA,并在一致性、可控性上实现了飞跃。
参考:刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
IBM 发布「Granite 4.0」系列大模型,减少 70%的内存需求
当地时间 10 月 2 日,IBM 宣布推出「Granite 4.0」系列企业级 LLM 模型,包括「granite-4.0-h-small-32B-A9B」、「granite-4.0-h-tiny-7B-A1B」、「granite-4.0-h-micro-3B」和「granite-4.0-micro-3B」等四个版本。新模型采用 Mamba-Transformer 混合架构,可在不牺牲性能的前提下减少 70%的内存需求,降低推理部署的成本。
参考:IBM发布Granite 4.0:显存需求降低超70%
腾讯「混元图像 3.0」登顶 LMArena 文生图榜单
10 月 5 日,腾讯混元刚开源一周的「混元图像 3.0」(HunyuanImage 3.0),登顶 LMArena 文生图榜单,超越 Google「Nano banana」与字节跳动「Seedream 4」,成为全球最强开源图像生成模型。该模型是首个工业级原生多模态生图模型,采用 80B 参数 MoE 架构与原生多模态设计,支持世界知识推理、1000Token 长文本理解及精确中英文渲染,美学水平达商业级。
Google DeepMind 发布「Gemini 2.5 Computer Use」模型
10 月 7 日,Google DeepMind 正式发布「Gemini 2.5 Computer Use」模型(计算机使用模型),该模型基于「Gemini 2.5 Pro」视觉理解与推理能力,旨在赋予 AI 智能体(Agent)与图形用户界面(GUI)直接交互的能力,能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。
参考:大模型直接通过界面操作计算机的时代来临:谷歌发布Gemini 2.5 Computer Use模型,像人类一样点击拖拽,实测不错
马斯克旗下 xAI 推出视频生成模型「Imagine v0.9」
10 月 8 日,马斯克旗下 xAI 推出最新视频生成模型「Imagine v0.9」,免费向所有用户开放。该模型在视频生成速度和功能上有所提升,生成视频时间缩短至 20 秒,支持语音优先界面,用户只需说话即可创建视频。
参考:硬刚Sora 2,马斯克发视频大模型,免费可玩,前英伟达何宜晖参与
蚂蚁集团开源万亿参数通用语言大模型「Ling-1T」
10 月 9 日,蚂蚁集团发布并开源万亿参数通用语言大模型「Ling-1T」,是百灵大模型「Ling 2.0」系列的首款旗舰非思考模型。模型基于高效 MOE 架构,总参数规模达 1T,每次推理仅激活约 50B 参数,兼顾强推理能力与高效计算。支持 128K 长上下文窗口,在编程、数学推理等复杂任务中表现突出,多项基准测试超越 DeepSeek、Kimi 等国内外模型。模型训练采用三阶段精英教育路径,使用 20T+高推理密度数据,并通过原生 FP8 混合精度训练平台和自研 WSM 调度器,显著提升逻辑连贯性。
以色列 AI21 Labs 开源轻量级推理模型「Jamba Reasoning 3B」
10 月 9 日,以色列 AI 创企 AI21 Labs 开源轻量级推理模型「Jamba Reasoning 3B」,该模型仅有 30 亿参数,可在包括手机、电脑在内的多种设备端高效运行,性能超过「Qwen3-4B」、「Gemma 3-4B」等业界顶尖模型。该模型基于 SSM-Transformer 架构构建,支持长达 256K 的上下文窗口,能够处理高达 1M token,与 DeepSeek、谷歌、Llama 和微软等竞争对手相比效率提升了 2-5 倍。
参考:手机能跑的3B推理模型开源,比Qwen 3-4B还快,超长上下文不降速
Microsoft 发布「UserLM-8B」用户角色模型
10 月 10 日,Microsoft 发布了「UserLM-8B」模型,这是一个 80.3 亿参数的语言模型,专门训练用于模拟对话中的“用户”角色,以帮助研究人员更真实地评估和开发助手。
参考:微软刚刚发布了个新模型 UserLM-8B, 这个模型主打倒反天罡,不是作为人工智能助手,而是作为用户!
AI 工具
OpenAI 发布「AgentKit」等一系列平台级工具和产品更新
10 月 6 日,在 OpenAI 开发者大会上,OpenAI 发布了一系列平台级工具和产品更新,包括「AgentKit」、「Codex 正式版」、「ChatGPT 内置应用」与「Apps SDK」、「gpt-realtime-mini」、「gpt-image-1-mini」、「Sora 2 API」、「GPT-5 pro API」。「AgentKit」是一套面向开发者和企业的完整工具集,可用于构建、部署和优化智能体(Agent)。
参考:刚刚,OpenAI 宣布打造 「ChatGPT 操作系统」,8 亿用户将迎来全新体验
Anthropic 正式发布 Claude Code 插件系统「Plugins」
10 月 10 日,Anthropic 正式发布 Claude Code 插件系统「Plugins」公测版,支持开发者将自定义的斜杠命令、AI 代理(Agent)、MCP 服务器和钩子(Hooks)打包成模块化工具包,实现一键安装和共享。任何人都可创建插件市场,只需 GitHub 仓库或 URL 放置正确格式的 marketplace.json 文件,无需申请权限或审核流程。
Google Cloud 发布「Gemini Enterprise」,争夺企业级 AI 市场
10 月 10 日,Google Cloud 正式发布革命性的 AI 平台「Gemini Enterprise」,它不只是一个简单的聊天机器人,而是一个能将谷歌顶尖 AI 技术融入每一项工作流程,赋能每一位员工的超级平台。该平台引入 Model Armor 功能可检测屏蔽 AI 聊天中的请求与响应,并支持 Box、Microsoft、Salesforce 等平台数据集成,把数周的复杂工作,简化成一次流畅的对话。
参考:Google Cloud 重磅发布 Gemini Enterprise,重新定义企业级 AI
技术动态
中国信通院正式推出「方升」大模型基准测试 3.0 版本
9 月 28 日消息,中国信通院正式推出「方升」大模型基准测试 3.0 版本,进一步完善评测能力体系。新版本不仅增加参数规模、推理效率等基础能力评估,同时前瞻性布局全模态理解、长期记忆、多智能体协作等十项高级智能指标,精准匹配工业、金融、科研等垂直领域需求。为支撑测试质量,信通院计划扩充 300 万条多语言测试数据,并研发新一代智能评测基座,包含仿真环境以验证复杂任务表现。
参考:中国信息通信研究院发布“方升”3.0体系及大模型基准测试(2025年Q3)结果
加州理工团队创下 6100 量子比特阵列新纪录,相干 13 秒、精度 99.98%
9 月 29 日消息,美国加州理工学院团队近期造出了目前全球最大的中性原子量子计算机,实现了超过 6100 个量子比特的一致性,同时实现了 99.98%的运行精度,量子比特保持相干性长达 13 秒,这一相干时间比此前实验长了将近 10 倍,相关论文发表于最新 Nature 期刊。
参考:加州理工团队创下6100量子比特阵列纪录,相干时间达13秒,单比特操控精度达99.98%
NVIDIA 发布「Newton」物理引擎等多项开源技术
9 月 30 日,NVIDIA 在机器人学习大会上发布了多项开源技术,包括联合 Google DeepMind 和迪士尼研究院开发的物理引擎「Newton」,能让机器人拥有”物理直觉”;还有赋予机器人人类推理能力的「Isaac GR00T N1.6」基础模型,以及能够生成海量训练数据的「Cosmos」世界基础模型,全面解决机器人研发中的仿真、推理和训练难题。
评论