MIAOYUN | 每周 AI 新鲜事儿(11.14-11.21)

本周全球 AI 领域创新密集,各大厂商竞相推出新一代大模型与智能工具。基础模型性能显著提升,Google 的 Gemini 3、OpenAI 的 GPT-5.1、xAI 的 Grok 4.1 等模型在多模态、代码及情感理解方面取得突破。AI 智能体与工具生态持续繁荣,微软的 Copilot、Google 的 SIMA 2、AI 编程 IDE Antigravity 及蚂蚁集团「灵光」等应用正重塑工作与创作方式。与此同时,开源操作系统、长期记忆技术及 Arm 与 NVIDIA 的硬件合作为 AI 发展夯实了算力与系统基础,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 大模型
MiroMind 团队推出开源智能体基座模型「MiroThinker v1.0」
11 月 16 日,MiroMind 团队正式推出开源智能体基座模型「MiroThinker v1.0」,突破传统 LLM 对“上下文长度”和“有效交互轮数”的根本限制。「MiroThinker v1.0」提出全新“深度交互 Scaling”维度,支持 256K 上下文和 600 轮工具调用,集成多种工具链可自主完成复杂任务闭环,支持本地部署及框架对接,后续将扩展工具生态与上下文规模。
参考:MiroMind 最新模型发布!深度交互Scaling!模拟人类处理复杂问题的智能体基座模型 MiroThinker v1.0
Physical Intelligence 发布了最新机器人基础模型「π*0.6」
11 月 18 日,Physical Intelligence 发布了最新机器人基础模型「π*0.6」,通过创新的 Recap 训练方法,融合示范、指导与自主实践三大环节,让视觉-语言-动作(VLA)模型突破模仿学习的瓶颈。该模型基于 50 亿参数的视觉-语言模型构建,搭配动作专家模块,支持文本指令与执行质量、动作优势等多维度条件输入,在做咖啡、叠衣物和组装纸箱等复杂任务上成功率达 90%以上,吞吐量提高 2 倍以上,失败率降低 2 倍或更多。
参考:机器人 VLA 的曙光,π*0.6 模型可能让咖啡店不需要店员了
马斯克旗下 xAI 发布新一代大模型「Grok 4.1」
11 月 18 日,马斯克旗下 xAI 发布新一代大模型「Grok 4.1」,在情感理解、对话智能和实用性方面显著提升,幻觉率从上代模型的 12.09%降至 4.22%,已免费开放使用。评测显示,「Grok 4.1」Thinking 版以 1483 分的成绩登顶 LMArena 文本竞技场榜首,但随后被谷歌「Gemini 3 Pro」以 1501 分反超。
参考:马斯克新模型屠榜,包揽前二!网友:拿来写小说很疯狂!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界
Google 发布新一代大模型「Gemini 3」,是其最智能、适应性最强的模型
11 月 18 日,Google 发布了其划时代的 AI 模型「Gemini 3」,一句话就能生成 3D 模型、做网站,甚至做一个开放世界游戏,在多项核心基准测试中全面超越「GPT-5.1」和「Claude 4.5」等竞品,「Gemini 3 Pro」在多模态推理(如 MMMU-Pro 达 81%)、数学能力(MathArena Apex 23.4%)和长周期任务规划(Vending-Bench 2 投资回报率领先)上表现突出。模型引入“Deep Think”深度思考模式和 Google Antigravity 智能体开发平台,强调更直接、简洁的交互体验,并支持学习、编程、规划等复杂场景。目前已开放给普通用户和开发者使用,分级定价策略同步公布。
Google 推出新版图像生成模型「Nano Banana Pro」
11 月 20 日,Google 推出新版图像生成模型「Nano Banana Pro」(Gemini 3 Pro Image),这是基于「Gemini 3 Pro」打造的专业级图像生成与编辑模型,会在生成图像前进行内部推理,上下文窗口支持 64K 输入 token、32K 输出 token,可输出 1K 至 4K 分辨率图像,最多可将 14 张输入图像组合为 1 张输出,还集成 Google 搜索能力提供最新知识支持,特别擅长复杂多轮图像生成编辑、多语言长文本渲染和需要高事实准确性的创意工作。
参考:刚刚,新版 Nano Banana 突然上线 | 附实测体验
OpenAI 同日推出「GPT-5.1 Pro」和「GPT-5.1-Codex-Max」两大模型
11 月 20 日,OpenAI 同日推出「GPT-5.1 Pro」和「GPT-5.1-Codex-Max」两大模型,前者主打情商智商双强,在写作、数据分析等方面的能力比前一代模型更强。后者是首个原生支持“压缩”机制的编码模型,支持超长上下文窗口,可连续工作超 24 小时处理数百万 token 任务,思考 token 相比前代减少约 30%,在 SWE-bench Verified 上达 77.9%高分。
参考:OpenAI深夜双王炸!GPT-5.1 Pro紧急发布,降维打击Gemini 3
Meta 发布 SAM 3D 家族包括「SAM 3D Objects」和「SAM 3D Body」
11 月 20 日,Meta 发布致力于理解和重建物理世界三维形态的开创性模型「SAM 3D」,可将 2D 图像分割结果直接转换成 3D 模型,即使存在遮挡也能重建。家族成员包括「SAM 3D Objects」和「SAM 3D Body」,前者专注于物体和场景重建,后者聚焦于人体姿态和形态估计。「SAM 3D」引入“可提示概念分割”功能,通过文本或示例提示定义概念,在 LVIS 零样本分割任务中准确率达 47.0,超越 SOTA 38.5。
参考:Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
AI Agent
Google DeepMind 推出全新多模态智能体「SIMA 2」
11 月 14 日,Google DeepMind 推出全新多模态智能体「SIMA 2」,从一个指令执行者进化为了一个互动游戏伙伴。「SIMA 2」采用符号回归方法,整合「Gemini 2.5 Flash-lite」模型为推理引擎,不仅能够在虚拟世界中执行各类人类语言指令,任务执行成功率相较前代提升一倍;还能思考自身目标、与用户互动,并随着时间的推移不断自我改进。
参考:DeepMind打造多游戏通用智能体SIMA 2,无需人类数据,让AI在虚拟世界中自我训练
昆仑万维发布轻量级多模态智能体「Skywork R1V4-Lite」
11 月 18 日,昆仑万维正式推出一款集成视觉操作、推理与规划的轻量级多模态智能体「Skywork R1V4-Lite」,不仅能进行深度推理,还在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。用户仅需上传一张图片即可完成空间判断、模糊文字放大等复杂任务,无需复杂提示词,在 8 个多模态理解基准评测上整体领先「Gemini 2.5 Flash」。
参考:昆仑万维正式发布Skywork R1V4-Lite 多模态智能体迈向开放式交互时代
微软全面升级「Copilot」,推出多项新功能和记忆用户偏好的「Work IQ」
11 月 18 日,微软在 2025 Ignite 大会上全面升级了「Copilot」,推出多项新功能,包括「智能体联动」、「语音对话」及记忆用户偏好和工作流程的智能层「Work IQ」,能够更好地理解用户的工作方式,推测用户需求,并提供个性化的智能体服务。「Copilot」的更新涵盖了 Word、Excel 和 PowerPoint 等应用,允许用户通过语音与其互动,并推出全新智能体控制平台「Agent 365」,帮助用户安全管理智能体。
参考:昨夜,微软Copilot全面进化:能语音、有记忆、可定制智能体
AI 工具
OpenAI 正式为 ChatGPT 推出「群聊功能」
11 月 14 日,OpenAI 正式为 ChatGPT 推出「群聊功能」,首次实现多人同时与 AI 交互的协作模式,目前已在日本、韩国、新西兰启动试点。新功能基于最新「GPT-5.1」模型驱动,支持搜索、发图片文件、生成图片、语音输入等,用户在群内自由交流不计入使用额度,仅当 ChatGPT 主动回复时才消耗速率限额,避免频繁互动受限。
参考:刚刚,ChatGPT 群聊功能上线,奥特曼要做 AI 版微信了?
Google 旗下 NotebookLM 推出「Deep Research」深度调研功能
11 月 14 日,Google 旗下 AI 笔记工具 NotebookLM 迎来重要升级,推出「Deep Research」深度调研功能,可自动收集 N 个相关网页源并整理到上下文列表,几分钟内围绕主题搭建专属资料库。系统支持 2500 万 token 上下文处理,所有回答必须基于用户提供的“来源”且带引用标注,可验证性强,避免 AI 幻觉问题。其“视频概览”功能,可将文档、网页、视频转化成交互式视频并生成相应画面,Google 明确承诺不会使用用户个人数据训练模型。
参考:我最最最喜欢的AI产品,谷歌NotebookLM终于放大招!
OceanBase 发布并开源首款 AI 原生混合搜索数据库「seekdb」
11 月 18 日,OceanBase 发布并开源了首款 AI 原生混合搜索数据库「seekdb」,支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合 AI 推理与数据处理,并兼容 Dify、Coze、LangChain、LlamaIndex 等 30 余种主流 AI 框架,最低 1 核 2GB 内存即可部署,开发者仅需三行代码,即可快速构建知识库、智能体等 AI 应用,轻松应对百亿级多模数据检索,真正实现“开箱即用”的 AI 数据基座。
参考:OceanBase 2025:首款 AI 数据库 seekdb 发布 客户数突破 4000 家
蚂蚁集团推出全模态通用 AI 助手「灵光」App
11 月 18 日,蚂蚁集团推出全模态通用 AI 助手「灵光」App,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大核心功能,支持“自然语言 30 秒生成可编辑交互的小应用”,同时也是业内首个全代码生成多模态内容的 AI 助手,支持 3D 数字模型、音频、图标、动画、地图等全模态的信息输出,对话更生动,交流更高效,,目前已同步登陆安卓与 iOS 应用商店。
Google 推出 AI 原生 IDE 产品「Antigravity」,挑战 Cursor
11 月 19 日,Google 推出 AI 原生 IDE 产品「Antigravity」,是一款类似 Cursor、WindSuf 这样的 VS Code 换皮 AI 编程工具,集成 AI 代理、代码编辑器和浏览器三大工具,构建从编码到部署的完整闭环。该产品核心创新在于“产物”驱动工作流,通过任务列表、实施计划和演练报告让 AI 工作过程透明可控,支持用户评论反馈和批准机制。现已支持 Gemini 3.0 pro、Claude 4.5 sonnet、GPT-OSS120B 免费使用,提供 MacOS、Windows、Linux 三个版本。
参考:与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?
技术突破
华为诺亚方舟实验室联合高效团队提出「ScaleNet」框架,实现高效模型扩展
11 月 18 日,北京理工大学、华为诺亚方舟实验室及香港城市大学的研究团队联合提出了 「ScaleNet」框架,通过层级权重共享(Layer-wise Weight Sharing)和轻量级适配器(Lightweight Adapter)的有效结合,创新性地实现了“用仅少量额外参数量,将模型深度扩展一倍”,并在视觉 Transformer(ViT)和大语言模型(LLM)上均验证了其有效性,显著提升了模型性能。
香港中文大学与字节跳动联合提出语义可控的视频生成框架「Video-As-Prompt」
11 月 18 日,香港中文大学与字节跳动联合提出全新的语义可控的视频生成框架「Video-As-Prompt」,引入一种「视频参考」的新范式,用户只需提供一段参考视频和对应的语义描述共同作为 prompt,就能直接「克隆」指定语义并应用于新内容,从根本上实现了抽象语义下可控视频生成范式的统一。该框架采用混合 Transformer 架构(冻结 DiT+可训练专家 Transformer),在保持基座模型能力的同时实现多语义统一控制,并开源包含 100K 视频样本、覆盖 100+高质量语义条件的 VAP-Data 数据集。
参考:视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt
市场动态
开源欧拉社区发布全球首个超节点操作系统「openEuler 24.03 LTS SP3」
11 月 15 日, 在操作系统大会 2025 上,开源欧拉社区(openEuler)正式开启新的 5 年发展之路,将于 2025 年底正式上线面向超节点的操作系统「openEuler 24.03 LTS SP3」,该系统具备全局资源抽象、异构资源融合和全局资源视图三大关键特征,旨在充分释放超节点算力潜能,加速基于超节点的应用创新。同时,华为开放「灵衢互联协议 2.0」,并将向社区贡献支持超节点的操作系统插件代码,提供「内存统一编址」、「异构算力低时延通信」和「全局资源池化」等关键能力。
参考:通向算力自由:openEuler发布全球首个超节点操作系统,专为AI打造
EverMind 团队发布并开源长期记忆操作系统「EverMemOS」
11 月 16 日,陈天桥盛大集团旗下 AI 团队 EverMind 发布并开源长期记忆操作系统「EverMemOS」,该系统在 Locomo 和 LongMemoEval-S 等主流评测集上分别以 92.3%和 82%的成绩刷新行业纪录。该系统受人脑记忆机制启发,创新设计四层架构(代理层、记忆层、索引层、接口层),采用“分层记忆提取”与动态组织,解决纯文本相似度检索难题,实现业界首个可拓展的模块化记忆框架解决传统传记忆形式单一问题。 目前已在 Github 开放开源版本,预计今年晚些时候发布云服务版本,为企业用户提供数据持久化与可扩展体验。
参考:首发 | 陈天桥盛大团队,推出最强开源记忆系统EverMemOS
Arm 将通过 NVIDIA NVLink Fusion 扩展 Neoverse 平台
11 月 20 日,Arm 与 NVIDIA 正在携手树立 AI 基础设施的新标杆,通过 NVIDIA NVLink Fusion 架构扩展 Arm Neovers 计算平台,将率先应用于 NVIDIA Grace Hopper 及 Grace Blackwell 平台的性能、带宽和能效优势,扩展至整个生态系统。Arm Neoverse 计算平台专为高能效、高性能扩展而打造;NVLink Fusion 能将所有 CPU、GPU 和加速器整合为统一的机架级架构。生态系统合作伙伴可将高效的 Arm 架构计算能力集成至 NVIDIA NVLink Fusion 生态系统,实现全缓存一致性与高带宽互连。
参考:Arm Neoverse 平台集成 NVIDIA NVLink Fusion,加速 AI 数据中心应用落地







评论