写点什么

MIAOYUN | 每周 AI 新鲜事儿(08.15-08.22)

作者:MIAOYUN
  • 2025-08-25
    四川
  • 本文字数:4581 字

    阅读完需:约 15 分钟

MIAOYUN | 每周AI新鲜事儿(08.15-08.22)

本周 AI 领域迎来多项重要进展,Meta DINOv3、阿里 Qwen-Image-Edit、字节 Seed-OSS-36B、腾讯混元 3D-Lite、DeepSeek V3.1 等模型连发,刷新视觉、推理、3D、长文上限;百度 GenFlow 2.0、智谱 AutoGLM 2.0 等通用 Agent 推动任务自动化升级;多款 AI 工具持续更新,提升开发与创作效率;OpenAI 牵头推出 Agent 标准,Meta 重组 AI 部门等前沿动态应接不暇,一起来回顾本周发生的 AI 新鲜事儿吧!


AI 大模型


Meta 正式推出并开源通用视觉基础模型「DINOv3」


8 月 15 日,Meta 正式推出并开源了「DINOv3」,一款通用的、SOTA 级的视觉基础模型,采用自监督学习(SSL)训练,能够生成更高质量的高分辨率视觉特征。该模型采用创新的 Gram Anchoring 策略和旋转位置编码(RoPE),参数规模扩展至 70 亿,训练数据扩展至 17 亿张图像。「DINOv3」商业许可开源,提供多种规模模型系列(如 ViT-B、ViT-L),并专门训练了一整套骨干网络(如卫星图像),世界资源研究所已实际应用。


参考:Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源


腾讯混元推出「混元 3D 世界生成模型 1.0-Lite」版本


8 月 15 日,腾讯混元推出「混元 3D 世界生成模型 1.0-Lite」版本,显著降低显存需求,适配消费级显卡(如 RTX 4090),通过引入动态 FP8 量化技术,显存占用从 26GB 优化至 17GB 以下,减少了 35%;结合 SageAttention 量化技术,推理速度提升 3 倍以上,精度损失小于 1%。此外,新版还支持 360 度全景生成和 Mesh 文件导出与二次编辑,可无缝接入游戏和物理引擎。


参考:消费级显卡就能跑的世界模型来了,腾讯混元3D世界模型推出Lite版本


快手推出「Klear-Reasoner」模型,登顶 8B 榜首


8 月 18 日,快手 Klear 语言大模型团队推出了全新的「Klear-Reasoner」模型,基于「Qwen3-8B-Base」打造,数学推理准确率超 90%,在 AIME2024、AIME2025 等多个权威基准测试中达到同规模模型的 SOTA 水平。该模型采用 GPPO 算法和高质量数据筛选策略,有效解决了传统强化学习中探索能力受限和负样本收敛慢的问题。


参考:快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!


阿里通义千问发布图像编辑模型「Qwen-Image-Edit」


8 月 19 日,阿里通义千问团队发布「Qwen-Image-Edit」图像编辑模型,基于 20B 的「Qwen-Image」模型进一步训练,将文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。同时将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),从而兼具语义与外观双重编辑能力,支持中英文双语精准文字编辑并保持原风格。


参考:哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦


NVIDIA 发布全新架构「NVIDIA Nemotron Nano 2 9B」模型


8 月 19 日,NVIDIA 发布了一个只有 9B 大小的「NVIDIA Nemotron Nano 2 9B」模型,采用 Mamba-Transformer 混合架构,在复杂推理任务中相较于「Qwen3-8B」提升了最高 6 倍的吞吐量。该模型在 20 万亿 Token 数据上进行预训练,具备优异的数学、代码及推理能力,且支持长达 128K 的上下文。


参考:Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练


阿里国际数字贸易集团推出「Ovis2.5」多模态模型


8 月 19 日消息,阿里国际数字贸易集团 AI 团队(AIDC-AI)近日发布了「Ovis2.5」多模态模型,提供 9B 和 2B 两种参数量版本,定位为经济型视觉推理模型。该模型通过原生分辨率视觉编码器(NaViT)避免图像切割导致的信息损失,同时引入可选的“思考模式”支持自我修正推理,刷新多项权威基准测试记录。「Ovis2.5」在 OCR 与图表分析方面表现出色,能够处理复杂的图表分析和文档理解;此外,在视觉定位、视频理解等专业任务中也展现领先性能。


参考:重磅升级!阿里发布Ovis2.5:原生分辨率视觉+多模态推理新标杆


字节跳动开源三款 36B 参数大模型「Seed-OSS-36B」


8 月 21 日,字节跳动 Seed 团队发布并开源三款「Seed-OSS」系列模型,分别是「Seed-OSS-36B-Base」(含合成数据和不含合成数据两个版本)和「Seed-OSS-36B-Instruct」。模型使用 12 万亿 tokens 训练,采用 Apache-2.0 许可证允许商业使用,原生支持 512K 超长上下文窗口和灵活推理预算控制,推理能力刷新开源模型记录。


参考:刚刚,字节开源Seed-OSS-36B模型,512k上下文


「DeepSeek V3.1」正式发布,支持 128K 超长上下文,API 价格同步调整


8 月 21 日,深度求索正式发布「DeepSeek V3.1」,采用混合推理架构,同时支持思考模式与非思考模式,拥有更高的思考效率及更强的 Agent 能力。目前官方 App 与网页端模型已同步升级,且上下文均拓展至 128K,采用 UE8M0 FP8 Scale 参数精度,新增对 Anthropic API 格式的支持。此外,将于 2025 年 9 月 6 日起,对 DeepSeek 开放平台 API 接口调用价格进行调整,取消夜间优惠。


参考:DeepSeek-V3.1 发布,迈向 Agent 时代的第一步


百度上线音视频一体化模型「百度蒸汽机 2.0」,全面开放四个版本


8 月 21 日,百度音视频一体化模型「百度蒸汽机 2.0」(MuseSteamer )正式发布,全面开放 Turbo 版、Lite 版、Pro 版,及有声版。该模型采用“多模态潜在空间规划器”技术,主打多人有声音视频一体化生成,能精准匹配中文口型,支持情感表达和方言,驱动静态照片说对白,大幅降低视频制作成本和复杂度。


参考:等会儿,这视频从哪里开始是AI?


AI Agent


百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」


8 月 18 日,在百度 AI Day 开放日上,百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow 2.0」,实现“全端通用、并行任务、记忆可溯”三大突破。「GenFlow 2.0」采用自研 Multi-Agent 架构,支持超 100 个专业 Agent 并行协作,3 分钟内完成超 5 项复杂任务(如生成 PPT、研报、图表等),生成速度超主流产品 10 倍,率先做到“分钟级交付、过程可干预、记忆可追溯”。


参考:百度发布全球首个全端通用智能体GenFlow2.0


智谱发布全球首个手机通用智能体「AutoGLM 2.0」,全民可用


8 月 20 日,智谱发布全球首个手机通用智能体「AutoGLM 2.0」,开创 Agent+云手机/云电脑的新技术范式,全民可用。「AutoGLM 2.0」由国产模型「GLM-4.5」与「GLM-4.5V」驱动,创新性地为 AI 配备专属云端设备,支持云端自主执行多样化任务,不抢占本地设备,突破硬件限制,实现全设备跨场景应用,在 Device Use 基准测试中表现优于 ChatGPT Agent 等主流产品。


参考:智谱AutoGLM上线:给每个手机都装上通用Agent


AI 工具


腾讯云发布全新 AI 开发工具「CloudBase AI CLI」,减少 80%编码量


8 月 15 日,腾讯云发布全新 AI 开发工具「CloudBase AI CLI」,定位为首个深度集成云开发平台的 AI CLI 统一管理工具,支持开发者通过自然语言,在命令行里统一调度此前需单独配置的 AI CLI 工具(如 Claude Code、OpenAI Codex、aider、Qwen Code 等),并与云开发打通,从生成代码到部署运维一气呵成,可减少 80%的编码量。


参考:腾讯云上新CloudBase AI CLI,可减少80%编码量


「ToonComposer」实现 AI 驱动动漫自动上色与动画生成,节省 70%人工时间


8 月 19 日消息,由北京大学、香港中文大学与腾讯 ARC 实验室联合打造的「ToonComposer」,采用“生成后补间”技术,实现从草图与单帧彩色图像生成完整卡通视频,节省高达 70%人工时间。该技术提供关键帧控制与区域留白填充功能,显著提升动漫制作效率。目前为学术研究项目,暂不用于商业用途。  


参考:腾讯开源ToonComposer:根据彩色起始帧和草图关键帧,生成完整的上色动画!


腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」


8 月 19 日,腾讯混元推出专门测评大模型代码能力的数据集「AutoCodeBench」,该数据集包含 3920 个问题,均匀分布在 20 种编程语言中,具有高难度、实用性和多样性等特点,旨在衡量模型多语言性能。现在「AutoCodeBench」已经开源,任何大模型均可使用该测试集进行代码能力评估。


参考:想评估大模型代码能力,试试腾讯混元最新开源的这个基准测试集


「企业微信 5.0」上线,推出六大全新 AI 能力,实现一体化办公协作


8 月 20 日,腾讯正式发布「企业微信 5.0」版本,重点围绕“AI”和“办公”两个关键词,推出智能搜索、智能总结、智能机器人、智能会议邮件整合、智能表格和智能服务总结功能等六大全新 AI 能力,实现一体化办公协作。


参考:企业微信5.0重大版本上线:推出六大全新AI能力


腾讯元宝接入「腾讯视频」功能,打造“搜索+推荐”一体化观影体验


8 月 21 日,腾讯元宝接入「腾讯视频」功能,用户可通过输入片名或相关线索快速检索影片,支持封面卡片展示和一键跳转观看。同时推出全新影视搜索与个性化推荐功能,用户可通过给出片名寻找类似风格的影片、向元宝描述场景获取个性化片单推荐、用模糊记忆找回想不起名字的电影,此外元宝还能与用户深入探讨影片的创作背景、剧情等,生成个性化片单。


参考:接入腾讯视频!在元宝搜到视频就能看


技术突破


OpenAI 联合推出「AGENTS.md」标准, 统一 Agent 规则


8 月 20 日,OpenAI 联合 Google、Amp、Cursor 等厂商,共同推出了一个简单、开放的 Agents 标准「AGENTS.md」,为 AI 编程领域带来新变革。「AGENTS.md」是一种专门为 AI 编码代理(coding agents)设计的开放格式文档,作用相当于项目的 “README for agents”,但它不是给人类贡献者看的,而是给 AI 看的,为 AI 代理提供构建步骤、测试指令、修复 Bug 等关键信息,让 AI 能像资深工程师一样工作。


参考:OpenAI联手谷歌,开源 agents.md,正式统一Agent规则!


港大和快手可灵提出「Context as Memory」,实现场景一致的交互式长视频生成


8 月 21 日消息,港大和快手可灵的研究团队近期提出的「Context as Memory」视频生成技术,能够解决长视频生成中场景记忆丢失的问题,效果接近 Genie 3 且投稿时间更早。该技术无需显式 3D 建模,通过将历史生成的视频上下文作为长期记忆存储,通过上下文学习保持前后场景的一致性;并基于相机轨迹视场(FOV)的记忆检索机制,大幅提升计算效率并降低训练成本。


参考:上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型


行业动态


国家数据局:我国日均 Token 消耗量突破 30 万亿,中文数据训练超 60%


8 月 17 日消息,据国家数据局发布数据显示,我国日均 Token 消耗量从 2024 年初的 1 千亿激增至 2025 年 6 月底的 30 万亿,一年半增长超 300 倍,彰显 AI 应用规模快速增长。中文数据在国内大模型训练中占比普遍超 60%,部分达 80%,显著提升模型性能。


参考:媒体报道丨国内多数模型训练使用的中文数据占比已超60%


Meta 计划重组 AI 部门,超级智能实验室一拆四引关注


8 月 19 日消息,据报道 Meta 计划第四次重组 AI 部门,将超级智能实验室拆分为 4 个团队:TBD Lab(To Be Determined,待确定,负责探索/先导研究)、产品和应用团队(含 Meta AI 助手)、基础设施团队(训练与推理算力、数据与平台)、FAIR(Fundamental AI Research,长期前沿研究)。重组的背后是硅谷史上最疯狂的人才掠夺战,Meta 或将放弃坚守多年的开源路线。


参考:Meta宣布重组AI部门!掏空硅谷闪电战内幕曝光,前员工全跑了,现员工没人挖


「GPT-5 Pro」自主证明全新数学定理引发关注


8 月 21 日,OpenAI 研究人员表示,「GPT-5 Pro」在阅读一篇数学领域研究凸优化问题的论文后,独立改进了定理中的步长条件,将保证优化曲线凸性的步长阈值从 1/L 提升至 1.5/L,并提供了完整证明。虽然论文作者随后提供了超越 AI 的新方法,但「GPT-5 Pro」的证明过程与人类方法截然不同。OpenAI 的总裁表示,这表明「GPT-5 Pro」已经具备了独立探索的能力, AI 在数学领域的潜力正逐渐显现。


参考:刚刚,GPT-5 Pro自证全新数学定理!OpenAI总裁直呼颠覆,大佬们集体转发


用户头像

MIAOYUN

关注

MIAOYUN,助力企业一秒入云,一键智维! 2018-11-08 加入

成都元来云志科技有限公司,简称“MIAOYUN”,成立于2019年,总部位于成都,在西安和上海设有研发中心和营销中心。成立以来,MIAOYUN坚持创新自研,致力于帮助客户一站式解决云原生系统复杂管运问题。

评论

发布
暂无评论
MIAOYUN | 每周AI新鲜事儿(08.15-08.22)_人工智能_MIAOYUN_InfoQ写作社区