MIAOYUN | 每周 AI 新鲜事儿（08.15-08.22）

2025-08-25
四川
本文字数：4581 字
阅读完需：约 15 分钟

本周 AI 领域迎来多项重要进展，Meta DINOv3、阿里 Qwen-Image-Edit、字节 Seed-OSS-36B、腾讯混元 3D-Lite、DeepSeek V3.1 等模型连发，刷新视觉、推理、3D、长文上限；百度 GenFlow 2.0、智谱 AutoGLM 2.0 等通用 Agent 推动任务自动化升级；多款 AI 工具持续更新，提升开发与创作效率；OpenAI 牵头推出 Agent 标准，Meta 重组 AI 部门等前沿动态应接不暇，一起来回顾本周发生的 AI 新鲜事儿吧！

AI 大模型

Meta 正式推出并开源通用视觉基础模型「DINOv3」

8 月 15 日，Meta 正式推出并开源了「DINOv3」，一款通用的、SOTA 级的视觉基础模型，采用自监督学习（SSL）训练，能够生成更高质量的高分辨率视觉特征。该模型采用创新的 Gram Anchoring 策略和旋转位置编码(RoPE)，参数规模扩展至 70 亿，训练数据扩展至 17 亿张图像。「DINOv3」商业许可开源，提供多种规模模型系列(如 ViT-B、ViT-L)，并专门训练了一整套骨干网络（如卫星图像），世界资源研究所已实际应用。

参考：Meta视觉基座DINOv3王者归来：自监督首次全面超越弱监督，商用开源

腾讯混元推出「混元 3D 世界生成模型 1.0-Lite」版本

8 月 15 日，腾讯混元推出「混元 3D 世界生成模型 1.0-Lite」版本，显著降低显存需求，适配消费级显卡（如 RTX 4090），通过引入动态 FP8 量化技术，显存占用从 26GB 优化至 17GB 以下，减少了 35%；结合 SageAttention 量化技术，推理速度提升 3 倍以上，精度损失小于 1%。此外，新版还支持 360 度全景生成和 Mesh 文件导出与二次编辑，可无缝接入游戏和物理引擎。

参考：消费级显卡就能跑的世界模型来了，腾讯混元3D世界模型推出Lite版本

快手推出「Klear-Reasoner」模型，登顶 8B 榜首

8 月 18 日，快手 Klear 语言大模型团队推出了全新的「Klear-Reasoner」模型，基于「Qwen3-8B-Base」打造，数学推理准确率超 90%，在 AIME2024、AIME2025 等多个权威基准测试中达到同规模模型的 SOTA 水平。该模型采用 GPPO 算法和高质量数据筛选策略，有效解决了传统强化学习中探索能力受限和负样本收敛慢的问题。

参考：快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

阿里通义千问发布图像编辑模型「Qwen-Image-Edit」

8 月 19 日，阿里通义千问团队发布「Qwen-Image-Edit」图像编辑模型，基于 20B 的「Qwen-Image」模型进一步训练，将文本渲染能力延展至图像编辑领域，实现了对图片中文字的精准编辑。同时将输⼊图像同时输⼊到 Qwen2.5-VL（实现视觉语义控制）和 VAE Encoder（实现视觉外观控制），从而兼具语义与外观双重编辑能力，支持中英文双语精准文字编辑并保持原风格。

参考：哪里不对改哪里！全能图像编辑模型Qwen-Image-Edit来啦

NVIDIA 发布全新架构「NVIDIA Nemotron Nano 2 9B」模型

8 月 19 日，NVIDIA 发布了一个只有 9B 大小的「NVIDIA Nemotron Nano 2 9B」模型，采用 Mamba-Transformer 混合架构，在复杂推理任务中相较于「Qwen3-8B」提升了最高 6 倍的吞吐量。该模型在 20 万亿 Token 数据上进行预训练，具备优异的数学、代码及推理能力，且支持长达 128K 的上下文。

参考：Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

阿里国际数字贸易集团推出「Ovis2.5」多模态模型

8 月 19 日消息，阿里国际数字贸易集团 AI 团队(AIDC-AI)近日发布了「Ovis2.5」多模态模型，提供 9B 和 2B 两种参数量版本，定位为经济型视觉推理模型。该模型通过原生分辨率视觉编码器（NaViT）避免图像切割导致的信息损失，同时引入可选的“思考模式”支持自我修正推理，刷新多项权威基准测试记录。「Ovis2.5」在 OCR 与图表分析方面表现出色，能够处理复杂的图表分析和文档理解；此外，在视觉定位、视频理解等专业任务中也展现领先性能。

参考：重磅升级！阿里发布Ovis2.5：原生分辨率视觉+多模态推理新标杆

字节跳动开源三款 36B 参数大模型「Seed-OSS-36B」

8 月 21 日，字节跳动 Seed 团队发布并开源三款「Seed-OSS」系列模型，分别是「Seed-OSS-36B-Base」（含合成数据和不含合成数据两个版本）和「Seed-OSS-36B-Instruct」。模型使用 12 万亿 tokens 训练，采用 Apache-2.0 许可证允许商业使用，原生支持 512K 超长上下文窗口和灵活推理预算控制，推理能力刷新开源模型记录。

参考：刚刚，字节开源Seed-OSS-36B模型，512k上下文

「DeepSeek V3.1」正式发布，支持 128K 超长上下文，API 价格同步调整

8 月 21 日，深度求索正式发布「DeepSeek V3.1」，采用混合推理架构，同时支持思考模式与非思考模式，拥有更高的思考效率及更强的 Agent 能力。目前官方 App 与网页端模型已同步升级，且上下文均拓展至 128K，采用 UE8M0 FP8 Scale 参数精度，新增对 Anthropic API 格式的支持。此外，将于 2025 年 9 月 6 日起，对 DeepSeek 开放平台 API 接口调用价格进行调整，取消夜间优惠。

参考：DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

百度上线音视频一体化模型「百度蒸汽机 2.0」，全面开放四个版本

8 月 21 日，百度音视频一体化模型「百度蒸汽机 2.0」（MuseSteamer ）正式发布，全面开放 Turbo 版、Lite 版、Pro 版，及有声版。该模型采用“多模态潜在空间规划器”技术，主打多人有声音视频一体化生成，能精准匹配中文口型，支持情感表达和方言，驱动静态照片说对白，大幅降低视频制作成本和复杂度。

参考：等会儿，这视频从哪里开始是AI？

AI Agent

百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」

8 月 18 日，在百度 AI Day 开放日上，百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」，实现“全端通用、并行任务、记忆可溯”三大突破。「GenFlow 2.0」采用自研 Multi-Agent 架构，支持超 100 个专业 Agent 并行协作，3 分钟内完成超 5 项复杂任务（如生成 PPT、研报、图表等），生成速度超主流产品 10 倍，率先做到“分钟级交付、过程可干预、记忆可追溯”。

参考：百度发布全球首个全端通用智能体GenFlow2.0

智谱发布全球首个手机通用智能体「AutoGLM 2.0」,全民可用

8 月 20 日，智谱发布全球首个手机通用智能体「AutoGLM 2.0」，开创 Agent+云手机/云电脑的新技术范式，全民可用。「AutoGLM 2.0」由国产模型「GLM-4.5」与「GLM-4.5V」驱动，创新性地为 AI 配备专属云端设备，支持云端自主执行多样化任务，不抢占本地设备，突破硬件限制，实现全设备跨场景应用，在 Device Use 基准测试中表现优于 ChatGPT Agent 等主流产品。

参考：智谱AutoGLM上线：给每个手机都装上通用Agent

AI 工具

腾讯云发布全新 AI 开发工具「CloudBase AI CLI」，减少 80%编码量

8 月 15 日，腾讯云发布全新 AI 开发工具「CloudBase AI CLI」，定位为首个深度集成云开发平台的 AI CLI 统一管理工具，支持开发者通过自然语言，在命令行里统一调度此前需单独配置的 AI CLI 工具（如 Claude Code、OpenAI Codex、aider、Qwen Code 等），并与云开发打通，从生成代码到部署运维一气呵成，可减少 80%的编码量。

参考：腾讯云上新CloudBase AI CLI，可减少80%编码量

「ToonComposer」实现 AI 驱动动漫自动上色与动画生成，节省 70%人工时间

8 月 19 日消息，由北京大学、香港中文大学与腾讯 ARC 实验室联合打造的「ToonComposer」，采用“生成后补间”技术，实现从草图与单帧彩色图像生成完整卡通视频，节省高达 70%人工时间。该技术提供关键帧控制与区域留白填充功能，显著提升动漫制作效率。目前为学术研究项目，暂不用于商业用途。

参考：腾讯开源ToonComposer：根据彩色起始帧和草图关键帧，生成完整的上色动画！

腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」

8 月 19 日，腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」，该数据集包含 3920 个问题，均匀分布在 20 种编程语言中，具有高难度、实用性和多样性等特点，旨在衡量模型多语言性能。现在「AutoCodeBench」已经开源，任何大模型均可使用该测试集进行代码能力评估。

参考：想评估大模型代码能力，试试腾讯混元最新开源的这个基准测试集

「企业微信 5.0」上线，推出六大全新 AI 能力，实现一体化办公协作

8 月 20 日，腾讯正式发布「企业微信 5.0」版本，重点围绕“AI”和“办公”两个关键词，推出智能搜索、智能总结、智能机器人、智能会议邮件整合、智能表格和智能服务总结功能等六大全新 AI 能力，实现一体化办公协作。

参考：企业微信5.0重大版本上线：推出六大全新AI能力

腾讯元宝接入「腾讯视频」功能，打造“搜索+推荐”一体化观影体验

8 月 21 日，腾讯元宝接入「腾讯视频」功能，用户可通过输入片名或相关线索快速检索影片，支持封面卡片展示和一键跳转观看。同时推出全新影视搜索与个性化推荐功能，用户可通过给出片名寻找类似风格的影片、向元宝描述场景获取个性化片单推荐、用模糊记忆找回想不起名字的电影，此外元宝还能与用户深入探讨影片的创作背景、剧情等，生成个性化片单。

参考：接入腾讯视频！在元宝搜到视频就能看

技术突破

OpenAI 联合推出「AGENTS.md」标准，统一 Agent 规则

8 月 20 日，OpenAI 联合 Google、Amp、Cursor 等厂商，共同推出了一个简单、开放的 Agents 标准「AGENTS.md」，为 AI 编程领域带来新变革。「AGENTS.md」是一种专门为 AI 编码代理（coding agents）设计的开放格式文档，作用相当于项目的 “README for agents”，但它不是给人类贡献者看的，而是给 AI 看的，为 AI 代理提供构建步骤、测试指令、修复 Bug 等关键信息，让 AI 能像资深工程师一样工作。

参考：OpenAI联手谷歌，开源 agents.md，正式统一Agent规则！

港大和快手可灵提出「Context as Memory」，实现场景一致的交互式长视频生成

8 月 21 日消息，港大和快手可灵的研究团队近期提出的「Context as Memory」视频生成技术，能够解决长视频生成中场景记忆丢失的问题，效果接近 Genie 3 且投稿时间更早。该技术无需显式 3D 建模，通过将历史生成的视频上下文作为长期记忆存储，通过上下文学习保持前后场景的一致性；并基于相机轨迹视场（FOV）的记忆检索机制，大幅提升计算效率并降低训练成本。

参考：上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型

行业动态

国家数据局：我国日均 Token 消耗量突破 30 万亿，中文数据训练超 60%

8 月 17 日消息，据国家数据局发布数据显示，我国日均 Token 消耗量从 2024 年初的 1 千亿激增至 2025 年 6 月底的 30 万亿，一年半增长超 300 倍，彰显 AI 应用规模快速增长。中文数据在国内大模型训练中占比普遍超 60%，部分达 80%，显著提升模型性能。

参考：媒体报道丨国内多数模型训练使用的中文数据占比已超60%

Meta 计划重组 AI 部门，超级智能实验室一拆四引关注

8 月 19 日消息，据报道 Meta 计划第四次重组 AI 部门，将超级智能实验室拆分为 4 个团队：TBD Lab（To Be Determined，待确定，负责探索/先导研究）、产品和应用团队（含 Meta AI 助手）、基础设施团队（训练与推理算力、数据与平台）、FAIR（Fundamental AI Research，长期前沿研究）。重组的背后是硅谷史上最疯狂的人才掠夺战，Meta 或将放弃坚守多年的开源路线。

参考：Meta宣布重组AI部门！掏空硅谷闪电战内幕曝光，前员工全跑了，现员工没人挖

「GPT-5 Pro」自主证明全新数学定理引发关注

8 月 21 日，OpenAI 研究人员表示，「GPT-5 Pro」在阅读一篇数学领域研究凸优化问题的论文后，独立改进了定理中的步长条件，将保证优化曲线凸性的步长阈值从 1/L 提升至 1.5/L，并提供了完整证明。虽然论文作者随后提供了超越 AI 的新方法，但「GPT-5 Pro」的证明过程与人类方法截然不同。OpenAI 的总裁表示，这表明「GPT-5 Pro」已经具备了独立探索的能力， AI 在数学领域的潜力正逐渐显现。

参考：刚刚，GPT-5 Pro自证全新数学定理！OpenAI总裁直呼颠覆，大佬们集体转发

发布于: 刚刚阅读数: 2

MIAOYUN

关注

MIAOYUN，助力企业一秒入云，一键智维！ 2018-11-08 加入

成都元来云志科技有限公司，简称“MIAOYUN”，成立于2019年，总部位于成都，在西安和上海设有研发中心和营销中心。成立以来，MIAOYUN坚持创新自研，致力于帮助客户一站式解决云原生系统复杂管运问题。

发布

暂无评论

创作场景