写点什么

MIAOYUN | 每周 AI 新鲜事儿(10.11-10.17)

作者:MIAOYUN
  • 2025-10-20
    四川
  • 本文字数:5147 字

    阅读完需:约 17 分钟

MIAOYUN | 每周AI新鲜事儿(10.11-10.17)

本周 AI 领域迎来一轮发布与突破高峰,大模型层面,多模态与视觉语言模型成为焦点,多家公司推出新模型,在复杂推理、图像生成等任务上表现卓越,且开源成为重要趋势。技术层面,研究集中在提升训练与推理效率上,涌现出无需训练即可优化模型、解耦推理架构等新方法,大幅降低了成本。同时,AI 应用正深入化工、编程等垂直领域,而硬件芯片、机器人评测平台及行业政策的最新动态,也为 AI 生态的全面发展注入了新动力,一起来回顾本周发生的 AI 新鲜事儿吧!

AI 大模型

抖音 SAIL 团队与 LV-NUS Lab 联合推出多模态大模型「SAIL-VL2」

10 月 12 日消息,抖音 SAIL 团队与 LV-NUS Lab 近期联合推出的多模态大模型「SAIL-VL2」,采用稀疏混合专家架构,动态支持任意分辨率输入,并通过三阶段训练策略(热身适应→细粒度对齐→世界知识注入)实现跨模态深度对齐。该模型以 2B、8B 等中小参数规模,在 106 个数据集实现性能突破,尤其在 MMMU、MathVista 等复杂推理基准超越同规模模型,甚至比肩更大参数的闭源模型。

参考:抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o


蚂蚁集团正式发布万亿参数思考模型「Ring-1T」

10 月 14 日,蚂蚁集团旗下 AI 品牌蚂蚁百灵正式发布万亿参数思考模型「Ring-1T」,并宣布全面开源模型权重及训练配方。该模型基于 Ling 2.0 架构,在 1T 总参数、50B 激活参数的 Ling-1T-base 基座上进行训练,支持最高 128K 上下文窗口,具备高效推理能力,在数学竞赛(AIME 25、HMMT 25),代码生成(CodeForces)、逻辑推理(ARC-AGI-v1)取得开源领先水平。

参考:Ring-1T,心流之境,顿悟所生


微软推出其首款完全自研的文生图模型「MAI-Image-1」

10 月 14 日,微软 AI 推出其首款完全自研的文生图模型「MAI-Image-1」。该模型在光影效果、自然景观等超写实图像生成上表现突出,首次亮相即以 1096 分排在权威评测平台 LMArena 文生图榜单第 9 名。

参考:微软AI推出首款自研图像生成模型!


阿里通义千问团队推出最强视觉语言模型「Qwen3-VL-4B/8B」

10 月 15 日,阿里通义千问团队推出其最强视觉语言模型系列「Qwen3-VL」的 4B 与 8B 版本(含 Instruct 与 Thinking 版本),在几十项权威基准测评中超越「Gemini 2.5 Flash Lite」、「GPT-5 Nano」等同级模型。这两款都是密集(Dense)视觉理解模型,实现了“视觉精准”与“文本稳健”的协同突破:通过架构创新和技术优化,让模型在保持强大文本理解能力的同时,显著增强多模态感知与视觉理解能力。

参考:视觉精准,文本稳健,足够轻巧!Qwen3-VL-4B/8B 开源上线


字节跳动开源专注人脸理解与生成的视觉语言模型「FaceCLIP」

10 月 15 日,字节跳动开源「FaceCLIP」模型,一款专注人脸理解与生成的视觉语言模型。其核心创新在于身份保持型图像生成框架,用户输入参考人脸与文本描述,模型能生成保留身份特征且符合文本指令的新图像。该模型采用多模态编码策略,深度融合人脸特征与语义提示,在真实感等指标上优于同类方法,有「FaceCLIP-SDXL」和「FaceT5-FLUX」两个版本,但存在特定族裔特征偏差与高显存要求的局限。

参考:字节跳动发布FaceCLIP:推动人脸理解与生成的新突破


Radical Numerics 推出全球最大规模开源扩散语言模型「RND1-Base」

10 月 15 日消息,AI 研究机构 Radical Numerics 正式推出「RND1-Base」,成为当前参数规模最大(30B)且完全开源的扩散语言模型。该模型是一个实验性的 30B 参数稀疏专家混合(Mixture-of-Experts)模型,具有 3B 活跃参数,它从预训练的 AR 模型 (Qwen3-30BA3B) 转换而来,并经过 500B token 的持续预训练,最终实现了完整的扩散行为。

参考:Qwen3变身扩散语言模型?不从零训练也能跑,30B参数创纪录


Google 更新了旗舰视频生成模型「Veo 3.1」

10 月 16 日,Google 更新了旗舰视频生成模型「Veo 3.1」,此次更新主打更强的叙事与音频控制、更丰富的输入与编辑能力两大亮点,并进一步提升了首尾帧与多图参考等精控,接入 Gemini API 与 Vertex AI,Flow 与 Gemini 可用。模型支持 720p 或 1080p 分辨率 24fps 视频,原生时长 4-8 秒,使用 Extend 功能最长可扩展至 148 秒,可合成多人物场景并实现音画同步。

参考:刚刚,谷歌Veo 3.1迎来重大更新,硬刚Sora 2


Anthropic 发布轻量级模型「Claude Haiku 4.5」

10 月 16 日,Anthropic 发布轻量级模型「Claude Haiku 4.5」,现已面向所有用户开放。据介绍,这是其最小型模型的最新版本,性能与「Claude Sonnet 4」相近,但成本仅为后者的三分之一,推理速度却超过两倍。在计算机使用基准 OSWorld 上得分 50.7%,超越「Sonnet 4」的 42.2%;在数学推理测试中借助 Python 工具支持,成绩高达 96.3%远超「Sonnet 4」的 70.5%。

参考:Anthropic新模型杀疯了!成本直降 2/3、性能直逼GPT-5,用户实测:比“吹”的还强,速度超 Sonnet 3.5 倍


火山引擎全新发布和升级了四款豆包大模型

10 月 16 日,火山引擎全新发布和升级了四款豆包大模型:升级「豆包大模型 1.6」,原生支持 4 种思考长度,是国内首个原生支持“分档调节思考长度”的模型;推出「豆包大模型 1.6 lite」,更轻量、推理速度更快。同时发布「豆包语音合成模型 2.0」和「豆包声音复刻模型 2.0」,基于豆包大语言模型研发语音合成新架构,让合成和复刻的声音都能解锁深度语义理解和上下文理解能力,具备更强的情感表现力、更精准的指令遵循能力,还能准确朗读复杂公式。

参考:新发布!四款豆包大模型了解一下!


阿里通义千问正式上线「Qwen Chat Memory」功能

10 月 16 日, 阿里通义千问正式上线「Qwen Chat Memory」功能,赋予 AI 长期记忆能力。该功能可主动识别并存储用户偏好、习惯与历史对话内容,在后续交流中自动调用背景信息,实现上下文连贯理解;所有记忆内容可由用户查看、管理和删除,用户拥有完整控制权。

参考:有记忆的Qwen,更懂你!


李飞飞 World Labs 重磅发布全新实时生成式世界模型「RTFM」

10 月 17 日,李飞飞 World Labs 重磅发布全新实时生成世界模型「RTFM」(Real-Time Frame Model,实时帧模型),通过端到端学习大规模视频数据,直接从输入 2D 图像生成同一场景下新视角的图像。仅需一块 H100 GPU,「RTFM」就能实时渲染出持久且 3D 一致的世界,无论是真实场景还是想象空间。

参考:李飞飞全新「世界模型」问世!单张H100实时生成3D永恒世界


AI Agent

中国石油大学打造 AI 系统,助力化工领域自主创新

10 月 12 日消息,近期中国石油大学研究团队打造了一款名为「Cyber Academia-Chemical Engineering」的 AI 系统,模拟不同领域专家的协作以实现化工领域的自主研究和创新。该系统由七个智能体组成,涵盖分子设计、工程验证等多个专业,能够自主演化并发现科学问题。团队为解决 AI 专家间的“幻觉”现象,开发了三重知识增强机制,提升了对话质量。此外,通过引入本体工程技术,促进不同领域专家间的有效沟通,以消除语义鸿沟,从而推动真正的技术创新和问题解决。

参考:科学家构建AI“赛博学术小镇”,三重知识增强机制克服AI“幻觉”,让化工科研实现自主演化


阿里巴巴推出全新 AI 编程工具「Qoder CLI」,专为命令行环境打造

10 月 16 日,阿里巴巴全新 AI 编程工具「Qoder CLI」(命令行界面)正式上线,这是一款专为命令行环境打造的 AI Coding Agent,基于自研轻量级 Agent 框架,集成了业界最顶尖的编程模型,不仅具备强大的代码生成与理解能力,还有效降低内存消耗和命令响应时间,进一步提升开发效率。官方数据显示,其空闲内存占用比同类工具低 70%,常见指令响应时间低于 200 毫秒,同时支持 Quest 模式任务分解与 CodeReview 能力,可减少 50%审查耗时,提升代码质量一倍。

参考:阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端

技术突破

清华大学与生数科技团队联合推出「Bridge-SR」和「AudioLBM」

10 月 12 日消息,清华大学与生数科技团队在音频超分辨率领域提出了两项新模型:轻量化语音波形超分模型「Bridge-SR」和面向高达 192 kHz 音频的多功能超分框架「AudioLBM」。「Bridge-SR」首次引入薛定谔桥模型,利用低分辨率波形作为生成先验,以高效且高保真的方式实现语音超分,参数仅 1.7M。「AudioLBM」在此基础上实现了从波形域生成到隐空间建模的转变,采用频率感知机制与级联桥类模型,实现了任意采样率音频的超分,取得了新的 SOTA 表现。

参考:清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式


中国科学院推出全新多模态大语言模型推理架构「SpaceServe」

10 月 12 日消息,中国科学院在 NeurIPS 2025 上推出了「SpaceServe」突破性架构,一种全新的多模态大语言模型(MLLM)推理架构。该架构首次将 LLM 推理中的编码器和解码器分离,采用 EPD 三阶段解耦及空分复用技术,系统性地解决了 MLLM 推理中的行头阻塞难题。

参考:告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星


科学家研发了 RISC-V 算子优化新框架「EoK」,实现 1.27 倍加速

10 月 12 日消息,香港城市大学研究者开发了大模型新框架「EoK」,旨在优化 RISC-V 架构下的算子性能。「EoK」通过系统化挖掘开源算子库的开发历史,建立了一个优化“想法”池,为大模型提供数据驱动的指导。该框架采用基于检索增强生成的并行搜索策略,通过同时探索多个优化方向,并结合 RISC-V 特定的上下文信息(包括 ISA 手册和硬件配置文件),显著提高算子设计的效率和效果。最终,在 80 个算子设计任务中,实现了中位数 1.27 倍的加速效果,超越了人类专家的性能,并提升了现有大模型方法的 20%。

参考:科学家研发大模型新框架,实现1.27倍加速,助力解决RISC-V软件生态瓶颈


腾讯发布「Training-Free GRPO」技术,大模型优化成本降 98%

10 月 13 日,腾讯优图实验室推出「Training-Free GRPO」(无训练组相对策略优化)技术,无需更新模型参数、仅通过“上下文学习”就能提升 LLM 代理性能的新方法。以往一次参数微调需花费约 7 万元,而该技术通过外部知识库存储和 token 级先验信息注入,实现模型参数冻结下的性能提升,单次优化成本仅需 120 元,降幅高达 98%。在 DeepSeek-V3.1-Terminus 模型测试中,数学推理任务准确率显著上升,且仅用 100 个跨域样本即达到传统方法数千样本的效果,网络搜索任务 Pass@1 信号标也有明显改善。

参考:腾讯优图提出Training-Free GRPO,8美元即可对DeepSeek-V3.2做强化学习


腾讯优图实验室开源强化学习算法「SPEAR」

10 月 14 日消息,腾讯优图实验室近期开源了强化学习算法「SPEAR」,首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过“自我模仿+渐进探索”实现熵稳定的学习过程,在 ALFWorld、WebShop、AIME24/25 等基准上平均提升 16%以上,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。

参考:腾讯优图开源SPEAR算法,打造LLM智能体“自学成才”的强化学习新范式


巨人网络与清华联合发布多方言语音合成大模型框架「DiaMoe-TTS」

10 月 15 日消息,近日巨人网络 AI Lab 与清华大学电子工程系 SATLab 联合发布了多方言语音合成大模型框架「DiaMoe-TTS」,并将数据、代码以及方法全部开源。该框架基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,仅依赖开源方言 ASR(自动语音识别)数据,解决了以往工业级模型对专有数据依赖的问题。在此之前,该框架已在英语、法语、德语等多种语言场景中进行了广泛验证,展现出强大的多语言可扩展性与稳健性。

参考:清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

市场动态

苹果宣布推出新一代自研电脑芯片 M5,AI 性能飙升 3.5 倍

10 月 15 日,苹果宣布推出新一代自研电脑芯片 M5,采用第三代 3nm 制程工艺,最高 10 核 CPU、10 核 GPU、16 核神经网络引擎,每个 GPU 核心都增加了一个神经网络加速器,基于 GPU 的 AI 峰值性能达到上一代 M4 芯片的 4 倍以上。M5 统一内存带宽 153GB/s,比 M4 提升近 30%,最高可选配 32GB 内存,能在设备端运行更大规模 AI 模型,搭载 M5 的设备 AI 性能是 M4 版的 3.5 倍。

参考:苹果M5芯片登场:10核CPU、10核GPU,AI性能飙到3.5倍


全球首个大规模、多任务的真实物理机器人基准评测平台「RoboChallenge」重磅推出

10 月 15 日消息,全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试「RoboChallenge」重磅推出,该平台由专注大模型与机器人深度融合的具身智能新势力 Dexmal 原力灵机联合全球最大 AI 开源平台之一 Hugging Face 共同发起。该平台旨在解决具身智能领域长期存在的“模拟到现实的落差”问题,为研究者提供一个严谨、公正的现实环境测评方式,弥合模拟测试与现实部署之间的差距。

参考:具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集


OpenAI 宣布 ChatGPT 将在 12 月推出「成人模式」

10 月 15 日,OpenAI 的 CEO Sam Altman 在 X 上发帖宣布,ChatGPT 将在 12 月推出「成人模式」,将允许通过年龄验证的成年用户访问成人向内容,这一政策调整将伴随完整的年龄验证系统一并实施。ChatGPT 的限制将分阶段大幅放宽,旨在回归深受用户喜爱的流畅、拟人化体验。

参考:ChatGPT 成人模式要来了,但作为成年人我一点都不高兴

用户头像

MIAOYUN

关注

MIAOYUN,助力企业一秒入云,一键智维! 2018-11-08 加入

成都元来云志科技有限公司,简称“MIAOYUN”,成立于2019年,总部位于成都,在西安和上海设有研发中心和营销中心。成立以来,MIAOYUN坚持创新自研,致力于帮助客户一站式解决云原生系统复杂管运问题。

评论

发布
暂无评论
MIAOYUN | 每周AI新鲜事儿(10.11-10.17)_AI_MIAOYUN_InfoQ写作社区