MIAOYUN | 每周 AI 新鲜事儿(08.28-09.05)

本周 AI 大模型密集发布,上海 AI Lab、苹果、美团、字节、腾讯、快手、阶跃星辰、Kimi 等相继发布多模态、MoE、音频、3D、语音、编程等新模型。微软、智谱等配套工具与框架同步更新;腾讯优图、阿里通义、清华等开源智能体。9 月 1 日起,国内 AI 生成内容必需合规标识,Deepseek 等多平台已公告细则,Anthropic 获 F 轮融资成全球第三 AI 独角兽,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 大模型
马斯克 xAI 推出「Grok Code Fast 1」编程模型,主打快速、经济
8 月 28 日,马斯克旗下 xAI 公司推出「Grok Code Fast 1」编程模型,一款兼具速度、高性价比的推理模型。该模型采用全新架构,支持 256K 上下文窗口,拥有 3140 亿参数和 92 token/s 的处理速度,支持 TypeScript、Python、Java 等多种语言。其定价为输入每百万 token 0.2 美元,输出 1.5 美元,缓存仅 0.02 美元,目前在 Cursor、GitHub Copilot 等平台限时免费。
腾讯 ARC 开源音频生成模型「AudioStory」,用大语言模型生成长音频
8 月 28 日,腾讯 PCG 的 ARC 实验室联合中科院自动化所开源了音频生成模型「AudioStory」,通过统一框架解决长音频生成中的时间与情感一致性问题。该模型结合大语言模型与音频生成技术,实现视频配音、音频延续、长篇叙事音频合成等多种任务,具备强大的指令跟随与推理生成能力。
参考:腾讯推出 AI 配音工具 AudioStory ,能将文本快速转化为媲美专业配音演员的有声内容
上海人工智能实验室开源发布「书生·万象 InternVL3.5」多模态大模型
8 月 29 日,上海人工智能实验室开源发布「书生·万象 InternVL3.5」多模态大模型,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。本次升级涵盖 10 亿至 2410 亿参数共九种尺寸模型,均刷新开源模型性能标杆,在通用多模态感知、多模态推理、文本能力等各种任务均达到领先水平,同时在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多种特色任务上取得了显著的性能提升。
参考:开源多模态大模型新突破,书生·万象3.5发布,通用能力、推理能力与部署效率全面升级
苹果发布两个开源多模态模型「FastVLM」和「MobileCLIP2」
8 月 29 日,苹果在 Hugging Face 上发布两个开源多模态模型「FastVLM」和「MobileCLIP2」,以及一个基于浏览器、WebGPU 驱动的实时视频字幕演示(在网页里上传或播放视频,它会实时生成字幕/视频内容的文字描述)。「FastVLM」是一种视觉语言模型,目前已经上线 0.5B、1.5B、7B 等多个版本,模型尺寸缩小 3.4 倍,速度提升高达 85 倍,通过减少视觉 token 和精简编码器,大型模型的首次 token 生成时间(TTFT)加快 7.9 倍;实时视频字幕生成完全在浏览器本地运行。
参考:苹果开源FastVLM和MobileCLIP2:速度提升85倍,浏览器内实时视频字幕
字节跳动开源 AI 绘画模型「USO」,风格与主体终于完美融合
8 月 30 日,字节跳动 UXO 团队设计并开源了统一框架「USO」(Unified Style-Subject Optimized customization model),一个统一的风格-主体优化定制模型,旨在通过一个框架同时解决风格化和主体定制两个任务。「USO」创新地采用跨任务协同解耦架构,构建全球首个跨任务三元组数据集,实现风格迁移与主体保持的双重优化;支持多种输入模态,包括文本、图像和视频,并在核心评测中表现优异,超越了多款主流模型。
参考:风格与主体终于完美融合!字节USO模型打破AI绘画‘二选一’困境,开源界新爆款诞生
美团发布 560B MOE 开源大模型「LongCat-Flash」
8 月 31 日,美团发布了首款开源大模型「LongCat-Flash」,是一款拥有 5600 亿参数的 MoE(混合专家)模型。该模型引入“零计算专家”处理简单任务和采用 ScMoE 结构(快捷连接架构),扩展了计算-通信重叠窗口,实现了每秒超过 100 个 token 的推理速度,理论每 token 输出时间相比「DeepSeek-V3」降低近 50%。在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务。
参考:美团首个开源大模型来了!5600亿个参数,推理速度比DeepSeek-V3快50%
阶跃星辰发布端到端语音大模型「Step-Audio 2 mini」
9 月 1 日,阶跃星辰正式发布最强开源端到端语音大模型「Step-Audio 2 mini」,在多个国际基准测试集上取得 SOTA 成绩。该模型将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,并率先支持语音原生的 Tool Calling 能力,可实现联网搜索等操作。
参考:开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
腾讯混元发布翻译模型「Hunyuan-MT-7B」
9 月 1 日,腾讯混元发布翻译模型「Hunyuan-MT-7B」,总参数量仅 7B,支持 33 个语种、5 种民汉语言/方言互译,是一个能力全面的轻量级翻译模型,在国际机器翻译比赛拿下 30 个第 1 名。 同时开源翻译集成模型「 Hunyuan-MT-Chimera-7B」(奇美拉),是业界首个翻译集成模型,它能够根据原文和多个翻译模型给出的不同内容,再生成一个更优的翻译结果,不仅原生支持「Hunyuan-MT-7B」,也支持接入「Deepseek」等模型。
腾讯混元发布混元 3D 世界模型「HunyuanWorld-Voyager」
9 月 2 日,腾讯混元发布混元 3D 世界模型「HunyuanWorld-Voyager」,是业界首个支持原生 3D 重建的超长漫游世界模型。该模型创新性地将场景深度预测引入视频生成过程,融合了视频生成与 3D 建模优势,支持视频场景重建、3D 物体纹理生成、视频风格定制化生成、视频深度估计等多种 3D 理解与生成应用;在世界模型基准测试 WorldScore 居综合能力首位,超越现有开源方法。
参考:混元世界模型上新,综合能力问鼎WorldScore排行榜
月之暗面 Kimi 发布新版本「Kimi K2-0905」模型
9 月 3 日,月之暗面 Kimi 在其官方 Discord 上发布新版本「Kimi K2-0905」模型。该模型基于基础模型构建,增强了编程能力,支持 256K 超长上下文,创意写作仍保持 SOTA 水平,并拥有更流畅的 Claude Code 兼容性和解锁前端功能,目前正处于开放 Beta 测试邀请阶段。
参考:杨植麟又发大模型!Kimi K2-0905登场,更强编程、创意写作
快手开源最新多模态大模型「Keye-VL-1.5」
9 月 3 日,快手开源最新多模态大模型「Keye-VL-1.5」,参数为 8B,支持 128K tokens 扩展上下文。该模型引入了三项关键创新:慢-快视频编码策略、渐进式预训练策略和全面的训练后方法,能捕捉视频中的细节与时间逻辑,实现对长视频与复杂语义的深度理解,可用于视频推荐、创作、互动以及内容审核和商业化全链条。据体验,该模型在图像理解和逻辑推理上效果较好,且速度较快,10 秒左右可完成数分钟视频内容的处理,能自动识别 AI 生成内容,但暂不支持音频理解和图像/视频创作。
参考:AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快
AI 工具
微软推出全新实验性 AI 平台「Copilot Labs」,并上线首个工具「Copilot 音频表达」
9 月 1 日消息,微软近日推出全新实验性 AI 平台「Copilot Labs」,并上线首个工具「Copilot 音频表达」。「Copilot Labs」旨在邀请用户参与 AI 的创新与发展,为用户提供实验性 AI 工具。「Copilot 音频表达」依托微软最新语音生成模型,可实现将书面文本转化为自然流畅的语音旁白,并可调整音频情感、个性和风格,该工具提供英语支持,涵盖情感模式与故事模式。该工具在全球范围内免费开放,部分功能需登录 Microsoft 账户并拥有 Copilot Pro 订阅。
参考:微软推出Copilot Labs,首个实验性工具“Copilot音频表达”上线
智谱「GLM-4.5」工具调用超越「Claude Opus 4.1」,并推出限时套餐
9 月 2 日,智谱开源模型「GLM-4.5」在 BFCL v4 基准工具调用全球第一,超越「Claude Opus 4.1」,成本仅为其 1.5%。为进一步降低 AI 编码工具的使用门槛,智谱正式推出「GLM Coding Plan」限时套餐,适用于智谱最新旗舰模型「GLM-4.5」及「GLM-4.5-Air」,月费低至 20 元,让更多用户以合理成本使用高质量的代码生成能力。
参考:智谱开源GLM-4.5工具调用超越Claude Opus 4.1,成本仅1.4%
腾讯、北京大学、清华大学等联合提出「IC-Custom」框架
9 月 4 日消息,近期一篇名为《IC-Custom: Diverse Image Customization via In-Context Learning》的论文,提出了「IC-Custom」统一框架,是一种灵活、高效且统一的图像定制框架。通过创新的“上下文学习”范式和 ICMA 机制,成功地将多种复杂的定制任务整合到一个单一模型中,实现了免微调、高质量、高灵活度的图像生成。
参考:腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
AI Agent
腾讯优图实验室正式开源智能体框架「Youtu-Agent」
9 月 2 日,腾讯优图实验室正式开源智能体框架「Youtu-Agent」,主打「开箱即用」,以极简设计和高性能表现为核心,旨在为研究人员和开发者提供高效、易用、可复现的智能体开发工具。该框架采用 DITA 原则,提供四个典型应用案例:本地文件管理、数据分析、论文分析和广域综述,支持一键生成配置和启动测试,具备开源友好、成本低、灵活架构和自动智能体生成等特点。
参考:来了!腾讯优图开源智能体框架Youtu-Agent,开箱即用!
首个为具身智能而生的大规模强化学习框架「RLinf」重磅开源
9 月 1 日,清华大学、北京中关村学院、无问芯穹等联合开源「RLinf」,首个面向具身智能的"渲训推一体化"大规模强化学习框架。该框架采用全新的混合式执行模式和创新的宏工作流到微执行流的映射机制(M2Flow),在具身智能训练场景下实现了超 120%的系统提速,VLA 模型涨幅 40%-60%;同时采用全新的低侵入式多后端集成方案,兼顾高效性和易用性,专为大小脑不同训练需求设计,还搭载自适应通信库和自动调度模块。
参考:首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
阿里通义实验室推出新一代智能体开发框架「AgentScope 1.0」
9 月 2 日,阿里通义实验室推出新一代智能体开发框架「AgentScope 1.0」,是一款以开发者为核心,专注于多智能体开发的开源框架。它的核心目标是解决智能体在构建、运行和管理中的难题,提供一套覆盖“开发、部署、监控”全生命周期的生产级解决方案,让智能体应用的开发更简单、运行更安全、监控更透明。该框架深度融合实时介入控制、智能上下文管理与高效的工具调用三大能力,支持安全工具沙箱运行与云端部署迁移。
参考:开发更可控,部署更便捷:AgentScope 迈入1.0时代
Midoo.AI 发布全球首个语言学习 Agent
9 月 3 日,Midoo.AI 发布全球首个语言学习 Agent,致力解决教育行业“学习效果”交付成本高、千人千面难规模化的核心困境。平台通过动态个性化内容、沉浸式场景和学习伙伴系统,建立由“事”(剧情主线)、“物”(可互动物品)、“人”(符合人设的 NPC)组成的 MultiAgent+Workflow 系统。
参考:Midoo.AI 发布:AI Agent 能否破解教育行业千亿美金的「无解方程」?
行业动态
9 月 1 日起「AI 生成内容需合规标识」,腾讯、抖音、DeepSeek 等多平台已公告
2025 年 9 月 1 日起,《人工智能生成合成内容标识办法》(GB45438 - 2025)国家标准正式实施,要求所有 AI 生成内容必须明确标注 AI 属性,涵盖显式标识与隐式标识两种方式。显式标识包括文本、图片、视频及音频的明确提示,隐式标识则要求嵌入 JSON 格式的元数据。并提出任何组织和个人不得恶意删除、篡改、伪造、隐匿办法规定的生成合成内容标识。目前,腾讯、抖音、快手、B 站、DeepSeek、昆仑万维等多平台均已发布公告,针对该标准出台细化规则。
参考:今起实施!AI生成内容必须带“身份证”,腾讯、抖音、快手、B站、DeepSeek等平台已公告→
Meta 和 Scale AI 合作关系出现裂痕
9 月 1 日消息, Meta 和 Scale AI 合作关系出现裂痕,据 TechCrunch 报道,双方目前正在团队融合、业务合作方面产生一系列纠葛:随 Scale AI 前 CEO 进入 Meta 的高管 Ruben Mayer 已离职,Meta 内部研究人员抱怨 Scale AI 数据质量太低,并采用了 Scale AI 对家数据等。两月前,Meta 豪掷 143 亿美元收购 Scale AI 49%的股份,这一波天价挖人后已多次重组 AI 部门,而 Scale AI 失去 Meta 支持后也丢失 OpenAI 和谷歌等大客户,经历大规模裁员。
参考:Meta和Scale AI闹翻!砸143亿买的高管跑路,业务也合作不下去
Anthropic 完成 130 亿美元融资,成为全球第三的 AI 独角兽企业
9 月 3 日消息,大模型独角兽 Anthropic 宣布完成 130 亿美元 F 轮融资,投后估值达到 1830 亿美元,是今年 3 月估值的近三倍,这意味着 Anthropic 成为全球仅次于 OpenAI、字节跳动,估值排名全球第三的 AI 独角兽企业。Anthropic 增长的主要动力是 AI 编程神器 Claude Code 三个月使用量增长 10 倍,已完成 9 轮融资总额达 300 亿美元,本轮由 ICONIQ、Fidelity 和 Lightspeed 领投,新资金将用于扩大企业采用规模和国际扩张。
上海 AI Lab 等机构联合发布科学大语言模型全景式综述
9 月 4 日消息,上海人工智能实验室联合全球 20 余家顶尖机构发布科学大语言模型(Sci-LLMs)全面综述,系统梳理 600+重要数据集与模型,揭示 2018-2025 年间四次关键范式转移。 研究显示科学大模型已从迁移学习(2018-2020)、规模化(2020-2022)、指令对齐(2022-2024)发展至科学智能体阶段(2023-今),「Intern-S1」等模型实现了“通才”与“专才”的融合。 综述提出科学数据质量"四要素"(准确性、完整性、时效性、可追溯性)和科学知识五层次模型,指出测评体系正从静态考试型向动态过程导向型转变。
评论