写点什么

MIAOYUN | 每周 AI 新鲜事儿(11.07-11.14)

作者:MIAOYUN
  • 2025-11-17
    四川
  • 本文字数:5295 字

    阅读完需:约 17 分钟

MIAOYUN | 每周AI新鲜事儿(11.07-11.14)

本周全球 AI 领域迎来一系列重要发布与突破。OpenAI 推出更智能的 GPT-5.1 系列,百度发布 2.4 万亿参数的文心 5.0,Google、字节跳动、阶跃星辰、商汤科技、微博、小红书等也相继推出新模型。技术及工具层面,TypeScript 成为 GitHub 最常用语言,Meta 开源支持超 1600 种语言的语音识别套件,百度推出新一代 AI 引擎及芯片等。这些突破推动 AI 在多模态理解、内容生成等方向持续进化,一起来回顾本周发生的 AI 新鲜事儿吧!


AI 大模型


华中科大等提出首个大规模水下多模态模型「NAUTILUS」


11 月 7 日消息,华中科技大学和国防科技大学研究团队近期联合推出首个水下多模态大模型「NAUTILUS」,并构建了首个大规模水下多任务指令微调数据集「NautData」,包含 145 万个图像-文本对,全面支持八种不同的水下场景理解任务。「NAUTILUS」通过视觉特征增强(VFE)模块有效解决了水下图像模糊和颜色失真问题,超越了现有模型,尤其在低光、浑浊等恶劣环境下表现更为优异。该模型实现了对粗粒度和细粒度目标的分类、计数、视觉问答、检测等多项任务的统一理解,为水下大模型的发展和评测奠定了基础。


参考:NeurIPS 2025 | 华科&国防科大提出首个水下多模态大语言模型NAUTILUS:专注水下场景理解,数据、模型已开源。


OpenAI 发布「GPT- 5 Codex mini」轻量化模型


11 月 8 日,OpenAI 上线了「GPT- 5 Codex mini」,一款转为低成本、高效率代码生成设计的轻量模型。该模型适用于简单软件工程任务或主模型调用量接近上限时的无缝切换,系统将在使用量达 90%阈值时自动推荐启用,避免服务中断。同时,ChatGPT Plus、Business 及 Edu 用户的速率限制提升 50%,Pro 与 Enterprise 用户享有优先处理权,响应更迅捷。  


参考:OpenAI和Anthropic,在coding市场的拉扯开始好看了


阶跃星辰发布全球首个开源 LLM 级音频编辑大模型「Step-Audio-EditX」


11 月 10 日,阶跃星辰发布全球首个开源 LLM 级音频编辑大模型「Step-Audio-EditX」,能够通过语言指令或迭代方式,精准控制音频的情感、说话风格和副语言特征,并实现零样本文本转语音(Zero-Shot TTS)。该模型采用统一 LLM 框架和“双码本”音频分词器,支持零样本文本转语音、迭代式编辑和中英双语及多方言;模型约 3B 参数,单卡 32 GB GPU 即可运行(提供 Int8 量化版),采用大边际合成数据训练,情感与风格控制准确率优于闭源模型。


参考:阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX


Google 爆火的「Nano Banana 2」限时上架 1 小时引热议


11 月 10 日,Google 爆火的「Nano Banana 2」限时上架 1 小时引热议。该预览版在图像生成方面表现出色,生成速度达到 10 秒,支持原生 2K 和 4K 分辨率。该版本可以在黑板上推导微积分,增强了文本渲染和信息图表能力,展现出更高的人物生成一致性。网友们对其在角色生成和手写体识别上的表现感到惊讶,认为其效果几乎无法与真人区分。


参考:Nano Banana 2 闪现 1 小时就下架,让所有 AI 翻车的测试,它轻松拿捏


商汤科技发布并开源「SenseNova-SI」系列空间智能大模型


11 月 10 日,商汤科技正式发布并开源「SenseNova-SI」系列空间智能大模型,包含 2B 和 8B 两个规格,其中 8B 版本在空间智能四个基本评测试中平均成绩 60.99,领先「GPT-5」等模型。该系列模型采用系统化的方法扩充空间理解数据的规模,首次在空间智能领域验证了“尺度效应”,使其在空间智能六大核心维度(空间测量、空间重构、空间关系、视角转换、空间形变与空间推理)上实现一致性能力提升。此外,还同步开源了空间智能测评平台「EASI」与「英雄榜」,将补强具身智能在三维结构认知方面的基础能力。


参考:商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5


小红书推出具有智能体特性的多模态模型「DeepEyesV2」


11 月 11 日消息,小红书近期推出的「DeepEyesV2」模型,是其多模态模型的增强版,具有更强的工具协同能力。该模型不仅能够进行视觉推理,还能执行代码、进行网页搜索和处理图像,通过多工具协同,从“会看细节”进化为“能主动解决复杂问题的智能体”。该模型的训练分为两个阶段,首先是通过高质量数据集进行冷启动,然后通过强化学习来优化工具使用策略,在 RealX-Bench 基准测试中表现优异。


参考:小红书新作DeepEyesV2,两阶段训练法解锁多模态“智能体”,真实世界任务表现惊艳


百度推出新一代多模态思考模型「ERNIE-4.5-VL-28B-A3B-Thinking」


11 月 11 日,百度推出新一代多模态思考模型「ERNIE-4.5-VL-28B-A3B-Thinking」,仅 3B 激活参数,兼具高效计算与灵活响应优势。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。


参考:仅3B激活参数,更强的多模态理解与推理能力,ERNIE-4.5-VL-28B-A3B-Thinking正式开源!


火山引擎正式发布豆包编程模型「Doubao-Seed-Code」


11 月 11 日,火山引擎正式发布豆包编程模型「Doubao-Seed-Code」,专为 Agentic 编程任务深度优化,在 SWE-Bench-Verified 官方榜单中刷新 SOTA,更兼容 Anthropic API、TRAE 等主流开发环境。该模型支持 256K 长上下文,是首个支持视觉理解能力的编程模型,首月低至 9.9 元,是目前国内性价比最高的 AI 编程工具。


参考:豆包编程模型发布!AI程序员双十一大促9.9元到岗


AI 语音公司 ElevenLabs 发布实时语音转文本模型「Scribe v2 Realtime」


11 月 12 日,AI 语音独角兽公司 ElevenLabs 发布了实时语音转文本模型「Scribe v2 Realtime」,实现 150 毫秒的超低延迟和 93.5%的高准确率,支持 90 多种语言。该模型该模型能够在复杂环境下高效工作,并适应多种音频格式,在 FLEURS 基准测试中针对前 30 种常用语言准确率达 93.5%,能精准识别方言、专业术语,甚至辨别笑声类型。


参考:硅谷热议:最快语音转文字模型


OpenAI 正式发布「GPT-5.1」系列模型,不仅聪明更有人情味


11 月 13 日,OpenAI 正式发布「GPT-5.1」系列新模型,包含「GPT-5.1 Instant」和「GPT-5.1 Thinking」两个版本,OpenAI 表示出色的 AI 不仅要聪明,还要让人与之对话变得愉悦,本次升级在智能和沟通风格上都有了显著提升,尤其是指令遵循和自适应思考的改进。「GPT-5.1 Instant」是 ChatGPT 最常用的模型,更温暖、更智能,也更善于遵循指令的模型。「GPT-5.1 Thinking」是高级推理模型,在简单任务上更快,在复杂任务上更持久,也更容易理解。


参考:GPT-5.1凌晨突袭,奥特曼听劝!全网呼唤的人味回来了


李飞飞联合创立的 WorldLabs 公司正式发布 3D 世界生成模型「Marble」


11 月 13 日,由李飞飞联合创立的 WorldLabs 公司正式推出其首款商业化“世界模型”产品「Marble」,支持用户通过文本提示词、照片、视频、3D 布局图或全景图生成可编辑、可下载的 3D 环境。「Marble」首创 AI 原生编辑工具可对生成世界进行局部替换和结构调整,Chisel 功能实现结构与风格分离,同一框架可生成不同风格场景。定价方面提供 4 档订阅方案,免费版本支持 4 次生成,旗舰版最高一个月 95 美元,可以生成 75 个世界。


参考:李飞飞「世界模型」正式开放,人人可用! Pro版首月仅7元


新浪微博发布「VibeThinker-1.5B」模型超越近万亿参数模型


11 月 13 日,新浪微博发布并开源「VibeThinker-1.5B」模型,仅有 15 亿参数、训练成本不足 8000 美元的小模型,在 AIME25 等顶级数学竞赛基准上击败了参数量是其数百倍的、近万亿参数的「DeepSeek-R1」(6710 亿参数)。该模型采用创新的频谱到信号原则(SSP),将 SFT 和 RL 两阶段的目标解耦,SFT 阶段追求多样性(Pass@K),RL 阶段追求准确性(Pass@1);整个训练过程在 H800 GPU 花费不到 8000 美元,成本效益比达到 30 到 60 倍。


参考:成本不到8千美元!新浪微博1.5B小模型超越近万亿参数模型


百度正式发布「文心 5.0」,2.4 万亿参数原生全模态模型


11 月 13 日,在 2025 百度世界大会上,百度正式发布「文心 5.0」大模型,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出,在 LMArena 文本排行榜得分 1432 表现出色。模型参数量达 2.4 万亿,超稀疏激活参数设计激活比例低于 3%,已上线文心一言网页版、文心 App 及百度千帆平台提供 API 服务。


参考:GPT-5.1上线,文心5.0登场,国产大模型为啥不慌


技术突破


字节跳动推出全新视频生成框架「InfinityStar」


11 月 9 日,字节跳动推出全新视频生成框架「InfinityStar」,基于时空金字塔架构创新性地解耦视频的空间外观与时间运动信息,将一段 5 秒 720p 高清视频的生成时间,从主流扩散模型的 30 多分钟,压缩到了 58 秒。并且用一套统一的框架,支持图像生成、文本生成视频、图像生成视频、视频续写等多样化的任务。


参考:32倍加速,58秒搞定720p视频!字节发布离散自回归框架,统一视觉生成和长视频生成


清华大学、东北大学和 OpenBMB 等机构联合推出「UltraRAG2.1」


11 月 11 日,清华大学 THUNLP 实验室、东北大学 NEUIR 实验室和 OpenBMB 等机构联合推出「UltraRAG2.1」,是首个基于 Model Context Protocol (MCP) 架构设计的 RAG 框架。研究者只需通过编写 YAML 文件,即可声明串行、循环与条件分支等逻辑,以极低代码量构建多阶段推理与检索生成系统。本次新版本围绕“原生多模态支持、知识接入与语料构建自动化、统一构建与评估的 RAG 工作流”三大方向进行核心增强。


参考:UltraRAG 2.1更新 :强化知识接入与多模态支持,完善统一评估体系


「TypeScript」首次成为 GitHub 上使用最广泛的语言


11 月 12 日消息,据 GitHub《Octoverse 2025》报告显示,「TypeScript」以约 4.2 万名贡献者优势,首次超越 Python,成为 GitHub 上使用最广泛的语言。「TypeScript」在 2025 年的贡献者数量增长了超过 100 万(同比增长 66%),主要驱动力来自默认使用 TypeScript 的开发框架和 AI 辅助开发。不过报告也指出 Python 在 AI 和数据科学领域仍然保持着主导地位,拥有 260 万贡献者(同比增长 48%);Jupyter Notebook 依旧是 AI 领域的首选探索性环境(相关仓库约 40.3 万个)。


参考:TypeScript超越Python成GitHub上使用最广语言,AI是主要驱动力


AI 工具


xAI 旗下 Grok 近期更新,升级「Grok 4 Fast」和「Grok Imagine」


11 月 8 日,xAI 旗下 Grok 家族一天之内连迎两大更新:升级「Grok 4 Fast」和「Grok Imagine」生成。「Grok 4 Fast」把上下文窗口提高到 2M,并把完成率从 77.5%拉到 94.1%(推理)与 97.9%(非推理),还加了锁屏小部件。「Grok Imagine」升级到真假难辨的程度,上线纯文本生成视频能力,用户只需输入一句话描述,即可在平均 17 秒内生成 6 至 15 秒、带背景音效的高质量短视频,无需任何图像素材或剪辑经验。


参考:马斯克Grok 4深夜大升级:200万逆天上下文、五倍GPT-5「脑容量」!


美团正式发布 AI IDE 编程工具「Meituan CatPaw」


11 月 10 日,美团正式发布 AI IDE 编程工具「Meituan CatPaw」,以 Agent &人协作为核心,通过 Agent 智能驱动编程,辅以代码补全、智能问答、项目预览调试等功能,结合美团自研的基于编程场景特训的 LongCat 模型,并支持多种模型混合调用,让编码过程更专注,项目交付更高效。该工具支持 Python、C++、Java、JavaScript、TypeScript、Go、Rust 等主流语言,目前开放公测并免费提供新用户 500 次对话额度(需申请邀请码体验)。


参考:美团首款 AI IDE 产品 CatPaw 进入公测,支持龙猫等多种模型混合调用


Meta 开源最强语音识别模型套件「Omnilingual ASR」


11 月 11 日,Meta AI FAIR 团队发布并开源了其在自动语音识别(ASR)领域的最新成果:「Omnilingual ASR」语音识别模型套件,能为超过 1600 种语言提供自动语音识别能力,78%语言字符错误率低于 10%。该框架采用社区驱动设计,用户仅需提供少量样本即可将模型扩展到新语言,首次实现大规模 ASR 框架的上下文学习能力。同时开源的还有「Omnilingual ASR Corpus」(包含 350 种服务欠缺语言的数据集)、「Omnilingual wav2vec 2.0」(70 亿参数的大规模多语言语音表征模型)和语言探索 Demo(可供人们探索模型所覆盖语言的演示)。


参考:Meta开源史上最强语音“基座模型”:一口气支持1600+种语言


百度智能云发布全新一代昆仑芯及基于昆仑芯的超节点产品天池


11 月 13 日,百度智能云正式发布全新一代昆仑芯及基于昆仑芯的超节点产品天池,并公布未来五年按年推出新产品的规划。全新一代昆仑芯包括两款产品,其中「昆仑芯 M100」针对大规模推理场景优化设计,提供极致性价比,将于 2026 年上市。「昆仑芯 M300」面向超大规模的多模态模型的训练和推理任务,提供极致性能,预计 2027 年上市。基于昆仑芯的「天池 256」与「天池 512」超节点产品,相比上一代,「天池 256 超节点」的卡间互联带宽提升 4 倍、整体性能提升 50%;「天池 512 超节点」在此基础上进一步跃升,单个超节点即可支撑万亿参数模型训练;两款产品将于明年正式上市。


参考:百度重磅发布:重新洗牌算力”芯“格局


百度正式推出发布「百度猎户座 AI 引擎」


11 月 13 日,百度正式发布「百度猎户座 AI 引擎」,整合其 25 年积累的搜索技术与前沿 AI 能力,打造面向企业与开发者的全栈式 AI 服务平台。该引擎融合搜索 AI API、MCP 多模态计算平台及行业专属能力,显著降低 AI 应用门槛。开发者可快速调用智能客服、内容生成、数据分析等功能模块,大幅缩短产品开发周期。


参考:百度搜索全面AI化,重塑底层系统、产品交互、搜索边界

用户头像

MIAOYUN

关注

MIAOYUN,助力企业一秒入云,一键智维! 2018-11-08 加入

成都元来云志科技有限公司,简称“MIAOYUN”,成立于2019年,总部位于成都,在西安和上海设有研发中心和营销中心。成立以来,MIAOYUN坚持创新自研,致力于帮助客户一站式解决云原生系统复杂管运问题。

评论

发布
暂无评论
MIAOYUN | 每周AI新鲜事儿(11.07-11.14)_人工智能_MIAOYUN_InfoQ写作社区