MIAOYUN | 每周 AI 新鲜事儿(09.12-09.19)
本周全球 AI 领域进展密集,MiniMax 音乐模型、阿里 80B Qwen3-Next、Meta 小参数 MobileLLM-R1、OpenAI 编程专用 GPT-5-Codex、OpenBMB 小钢炮新成员、李飞飞 3D 世界 Marble 齐上线;Cursor、小红书、腾讯、xAI 等新模型性能飙升。技术方面多模态与视频生成显著突破,上海 AI Lab、腾讯优图等推出高效采样与蒸馏方案。华为公布芯片路线图与 2035 智能世界趋势,DeepSeek-R1 登上 Nature,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 大模型
MiniMax 发布新一代音乐生成模型「Music 1.5」
9 月 12 日,MiniMax 发布新一代音乐生成模型「Music 1.5」,支持长达 4 分钟的完整歌曲创作,并具备强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰四大突破。模型支持“16 种风格×11 种情绪×10 个场景”自定义音乐特征,能生成不同声线唱腔,并支持中国民族乐器生成支持歌词编排、声线定制、民乐生成等能力。
参考:音乐模型新突破:MiniMax Music 1.5上线,4分钟时长、回归“好听”本质
阿里通义千问发布「Qwen3-Next」架构并开源「Qwen3-Next-80B-A3B」双模型
9 月 12 日,阿里通义千问发布下一代基础模型架构「Qwen3-Next」,对混合注意力机制、高稀疏性 MoE、训练方法等进行了大幅度创新。并训练了基于该架构的「Qwen3-Next-80B-A3B-Base」模型,该模型拥有 80B 参数仅激活 3B 参数,算力利用率大约是 3.7%,训练成本较「Qwen3-32B」降 90%,推理效率却提升 10 倍,尤其是在超长文本 32K 以上的提示场景中。同时,基于 Base 模型,阿里开源了「Qwen3-Next-80B-A3B」的指令模型(Instruct)和思维模型(Thinking)。
参考:我们正式发布:Qwen3-Next-80B-A3B 双模型!
Meta AI 发布「MobileLLM-R1」系列小参数高效模型
9 月 12 日, Meta AI 发布「MobileLLM-R1」系列小参数高效模型,包括 140M、360M、950M 三种规模,在数学、编程和科学推理任务中表现卓越。最大版本的 950M 模型仅使用约 2T 高质量 token 进行预训练(总训练量不足 5T),性能却与使用 36T token 训练的「Qwen3 0.6B」相当或更佳;在 MATH 基准上比「Olmo 1.24B」高五倍,比「SmolLM2 1.7B」高两倍,在完全开源模型中创下新的最高水平。
参考:Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
Cursor 升级「Tab」模型,代码建议接受率提升 28%
9 月 14 日,Cursor 采用在线强化学习技术训练出一个全新的「Tab」模型。该模型将每一次用户交互(接受/拒绝建议)都视为一个强化信号,直接用于模型的在线优化。目前,Cursor 已将这个新的「Tab」模型设为默认版本;与旧模型相比,新模型提供的建议数量减少了 21%,但所提供建议的接受率却提升了 28%。
参考:为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?
小红书推出新一代对话合成模型「FireRedTTS-2」
9 月 14 日消息,近日小红书智创音频技术团队发布新一代对话合成模型「FireRedTTS-2」,支持音色克隆,显著提升合成自然度与多说话人对话能力。该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题,通过升级离散语音编码器与文本语音合成模型全面优化合成效果,仅需一句语音样本即可模仿说话人音色与语调,轻松做出 AI 播客。
参考:小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
马斯克旗下 xAI 推出「Grok 4 Fast」模型,响应速度提升 10 倍
9 月 15 日,马斯克旗下 xAI 公司推出「Grok 4 Fast」模型,生成速度高达每秒 75 个 token,比标准版快 10 倍。该模型专注于及时响应场景,强调速度优先,适用于简单查询和工具调用,但在复杂创意任务上有所妥协,牺牲部分准确性和细节丰富度,但满足了特定用户追求及时结果的需求。
参考:马斯克的最快AI模型来了
腾讯发布「混元 3D 3.0」模型,建模精度提升 3 倍
9 月 16 日,在 2025 腾讯全球数字生态大会上,腾讯重磅发布「混元 3D 3.0」模型,采用 3D-DiT 分级雕刻技术,建模精度提升 3 倍,几何分辨率高达 1536³,支持 36 亿体素超高清建模,细节表现力显著增强。同时推出「混元 3D Studio」平台和计划开源「混元 3D omni」模型,推动 3D 创作的边界拓展。
OpenAI 重磅推出「GPT-5-Codex」,专为智能体编程设计
9 月 16 日,OpenAI 重磅推出「GPT-5-Codex」,专为智能体编程(Agentic Coding)设计,显著提升代码重构、审查和缺陷发现的表现。该模型具备动态思考机制,能根据任务复杂度调整处理时间,提升编码效率;支持多平台集成,包括 IDE 扩展、Web 界面和 GitHub 代码审查功能,增强开发者生态。
参考:收手吧GPT-5-Codex,外面全是AI编程智能体!
李飞飞创业公司 World Labs 发布空间智能模型「Marble」
9 月 17 日,斯坦福大学教授李飞飞的创业公司 World Labs 发布了空间智能模型「Marble」,用户只需输入一张图片或文本提示,即可生成持久存在、可导航、可控的大规模 3D 世界。与此前成果相比,现在生成的 3D 世界规模更大、风格更多样化、几何结构更干净,且支持浏览器中自由视角导航。目前「Marble」是一个限量访问的 Beta 测试版平台,用户可以在官网地址( marble.worldlabs.ai)浏览和创建 3D 世界。
参考:刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
OpenBMB 联合清华大学开源小钢炮新成员「VoxCPM」
9 月 18 日,OpenBMB 与清华大学联合开源小钢炮新成员「VoxCPM」,一款模型参数尺寸仅有 0.5B 的语音生成基座模型,在合成语音的自然度、音色相似度及韵律表现力方面均达到 SOTA 水平。该模型采用融合层次化语言建模和局部扩散生成的连续表征端到端 TTS 方案,显著提升了语音生成的表现力、自然度、稳定性。「VoxCPM」的特点包括超自然语音生成、零样本语音克隆和语境感知,能够根据文本内容自动调整说话风格。
参考:面壁小钢炮迎新:VoxCPM 语音生成媲美真人、声音复刻超像!
技术突破
字节跳动与清华大学联合开源「HuMo」多模态框架
9 月 13 日消息,近期字节跳动智能创作团队与清华大学携手推出开源多模态框架「HuMo」,该框架聚焦人体视频生成(HCVG),可结合文本、图像、音频多模态输入,凭借高质量数据集与渐进式训练方法,能生成 480P、720P 清晰度、最长 97 帧、25 帧每秒的可控人物视频,且在子任务表现上超越现有专业化方法,其创新的数据处理流程、灵活推理策略及渐进式多模态训练方式提升了视频质量与处理速度。
加州大学、伯克利等联合推出轻量高效的多模态视觉编码器「OpenVision 2」
9 月 15 日消息,近期加州大学圣克鲁兹分校、Apple 和伯克利的研究团队提出了「OpenVision 2」,一款针对多模态学习优化的视觉编码器。核心创新在于通过极简生成式框架(仅图像编码器+文本解码器)替代传统 CLIP 式对比学习,移除文本编码器并引入视觉 token 随机掩码技术,显著提升训练效率(时间缩短 1.5-2 倍,显存减半),同时保持多模态任务性能。实验显示,其在 OCR 等任务上优于主流对比模型,并成功扩展到 10 亿参数规模,为视觉预训练提供了高效可扩展的新方向。
参考:OpenVision 2:大道至简的生成式预训练视觉编码器
上海 AI Lab 联合推出新一代多模态生成理解统一扩散大模型「Lumina-DiMOO」
9 月 16 日消息,上海人工智能实验室联合昇腾、知名高校共同推出面向新一代多模态生成理解统一扩散大模型「Lumina-DiMOO」,支持文本生成图像、图像编辑、图像翻译、图像复原等多种任务。该模型基于昇腾 MindSpeed MM 多模态大模型套件训练,采用“全离散扩散架构”,一个模型即可搞定文字与图像的输入输出,架构更简洁,任务迁移更高效;结合“Max-Logit 缓存加速机制”,采样速度相比传统自回归架构提升约 10 倍,平衡性能与效率,以 8B 参数规模在 DPG 等权威基准测试中超越现有开源多模态模型。
参考:国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
腾讯优图实验室联合提出视频蒸馏加速框架「SwiftVideo」
9 月 18 日,腾讯优图实验室、复旦大学、上海创智学院联合提出视频蒸馏加速框架「SwiftVideo」,该框架是一个结合了轨迹保持和分布匹配策略的优势的统一蒸馏框架,通过轨迹与分布对齐,实现少步数高质量视频生成。该框架包括三个核心组件:连续时间一致性蒸馏(CCD),分布对齐(DA)和轨迹对齐(TA)。
参考:首个!腾讯优图、复旦、上海创智学院提出SwiftVideo:Continuous-time视频蒸馏加速框架!
AI Agent
昆仑万维旗下 AI 音乐创作平台 Mureka 上线全新功能「Agent Studio」
9 月 15 日,昆仑万维旗下 AI 音乐创作平台 Mureka 上线了全新功能「Agent Studio」,用更直观、更轻松的方式,把音乐创作真正带到每一个普通人身边。用户只需简单描述想法,就能自动生成歌词和音乐;该功能包含多个创作场景,如专辑制作、热点写歌等,为用户提供多样化的音乐体验。
参考:Mureka上线「Agent Studio」新功能,让每个人都拥有私人音乐工作室!
阿里全面开源深度研究 Agent 模型「通义 DeepResearch」
9 月 17 日,阿里云通义实验室开源「通义 DeepResearch」,是首个完全开源的 Web Agent,仅使用 30B 参数(实际激活 3B)即可实现与 OpenAI 的深度研究工具相媲美的性能,在多项权威基准上取得 SOTA,并在 Humanity's Last Exam 测试中获得 32.9 分的高分。其强大的信息检索和推理能力,适用于多日行程规划和法律文档分析等复杂任务。
参考:不止SOTA!通义 DeepResearch模型、框架、方案全开源
腾讯云宣布智能体开发平台 3.0「ADP 3.0」面向全球上线
9 月 17 日,腾讯云宣布智能体开发平台 3.0「ADP 3.0」面向全球上线,腾讯优图实验室关键智能体技术将持续开源。「ADP 3.0」从四方面全面升级:RAG 层面,支持更完善的知识库管理与运维能力;Multi-Agent 方面,支持多方式配置 Agent 协同,支持自由转交、工作流编排、P&E 协同模版等;WorkFlow 方面,率先支持全局 Agent 视野,支持节点智能回退;平台新增应用变量与长期记忆,提升个性化交互;应用构建工具链方面,引入自动化评测引擎,支持裁判模型、代码与规则打分,并支持在大规模知识场景中多层级权限配置。
天工超级智能体正式上线全新 Vibe Coding Agent「AI Developer」
9 月 17 日,天工超级智能体(Skywork Super Agents)在海外版产品中正式上线全新 Vibe Coding Agent「AI Developer」,帮助非专业开发人员通过自然语言交互快速构建、部署和管理全栈 Web 应用程序。「AI Developer」不仅能生成前端页面,还可与 Supabase 深度集成,实现登录注册、数据库存储评论数据、实时更新等后端能力;此外还提供 Stripe 支付和 Resend 邮箱服务集成。
参考:Skywork Super Agents正式上线Vibe Coding Agent「AI Developer」
AI 产品
夸克推出国内首个「全阶段医师考试大模型测试集」
9 月 16 日,夸克正式发布国内首个覆盖全阶段医师考试的健康大模型测试集「全阶段医师考试大模型测试集」,弥补了国内在时效性高、覆盖面全的医师考试测试集上的空白。该测试集涵盖 12 门核心医学学科,包含约 7600 道题,内容基于 2024 年最新真题的专业题目,通过梯度化策略,模型推理能力的要求显著提升,适用于不同级别的考试。
腾讯 AI 工作台 ima 功能更新,支持上传音频文件
9 月 17 日,腾讯旗下以知识库为核心的 AI 工作台 ima 发布新版本,本次更新主要升级了三方面:音频一键上传,支持 MP3、M4A、WAV、AAC 格式音频文件,AI 自动生成原文、速览和纪要,方便处理培训录音等内容;增加电脑端快捷键截图功能,用户可设置截图后直接提问、加入知识库或记笔记,简化信息获取流程;手机端笔记支持离线编辑与新建,无网络状态下也能记录灵感,联网后自动同步。
华为发布昇腾 AI 芯片 4 年 5 款产品路线图及全球最强算力超节点
9 月 18 日,在华为全联接大会 2025 上,华为公布昇腾 AI 芯片 4 年 5 款产品路线图,包括 2026 年 Q1 推出的昇腾 950PR、2026 年 Q4 的昇腾 950DT、2027 年 Q4 的昇腾 960 和 2028 年 Q4 的昇腾 970。昇腾 950 芯片支持低精度数据格式,在 FP8、MXFP8、HiF8 精度下 AI 算力达 1PFLOPS,MXFP4 下达 2PFLOPS,支持华为自研 HBM。同时推出全球最强算力超节点和集群,华为 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点,分别支持 8192 张及 15488 张昇腾卡。
行业动态
迪士尼联合起诉 MiniMax,AI 版权争议升级
9 月 16 日,迪士尼、华纳兄弟和环球影业联合向洛杉矶联邦法院起诉中国 AI 公司 MiniMax,指控其通过「海螺 AI」服务大规模侵犯著作权。诉讼涉及未经授权使用蜘蛛侠、蝙蝠侠等电影角色进行 AI 训练和商业化运营,三家公司要求 MiniMax 返还所有侵权所得,并按每项著作权最高 15 万美元的标准请求赔偿。此前爱奇艺也曾起诉其产品生成与《苍兰诀》角色高度相似的虚拟形象,并允许用户互动,涉嫌侵权。
华为发布面向智能世界 2035 十大技术趋势
9 月 16 日,华为发布面向智能世界 2035 系列报告,包括包括《智能世界 2035》和《全球数智化指数 2025》报告两大研究成果,展望了未来十年的关键技术趋势以及这些技术对行业带来的改变和影响。报告预测 AGI 将成最具变革性驱动力量、AI 智能体从执行工具演进为决策伙伴、人机协同编程成为主流、交互方式向多模态演进等十大趋势;并预测 2035 年全社会算力总量将增长 10 万倍、AI 存储容量需求将比 2025 年增长 500 倍,可再生能源发电量占比将突破 50%,人工智能将成为新能源系统的核心。
「DeepSeek-R1」以封面文章的形式登上了权威科学期刊《Nature》
9 月 17 日,中国 AI 公司深度求索的「DeepSeek-R1」推理模型研究论文登上了国际权威期刊《Nature》的封面,成为全球首个经过同行评审的主流大语言模型(LLM)。该论文首次展示了通过强化学习(RL)显著提升大模型推理能力的研究成果,并在 Hugging Face 平台上下载量超过 1090 万次。「DeepSeek-R1」的安全性也经过全面评估,表现优于其他前沿模型。
评论