MIAOYUN | 每周 AI 新鲜事儿(06.27-07.04)

在科技飞速发展的当下,AI 已成为推动各行业变革的核心力量。为助您紧跟 AI 发展浪潮,把握前沿动态,MIAOYUN 特别推出「每周 AI 新鲜事儿」,涵盖技术突破、新模型发布、研究报告等多个方面,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 开源大模型
腾讯混元发布首款开源混合推理 MoE 模型「Hunyuan-A13B」
6 月 27 日,腾讯混元宣布开源首个混合推理 MoE 模型「Hunyuan-A13B」,总参数 80B,激活参数仅 13B,效果比肩同等架构领先开源模型,但是推理速度更快,性价比更高。Hunyuan-A13B 模型是腾讯内部应用和调用量最大的大语言模型之一,有超过 400+业务用于精调或者直接调用,日均请求超 1.3 亿。这是业界首个 13B 级别的 MoE 开源混合推理模型,可以根据需要选择思考模式(“快思考”或“慢思考”),对个人开发者较为友好,只需要 1 张中低端 GPU 卡即可部署。
参考:腾讯混元首款开源混合推理MoE模型发布,性能优异,激活参数仅13B
华为宣布开源盘古 7B 稠密和 72B 混合专家模型
6 月 30 日,华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型和基于昇腾的模型推理技术。盘古 Pro MoE 利用 4000 颗昇腾 NPU 进行训练,其性能在多个基准测试中超过了 Qwen3-32B 等主流模型,单推理吞吐可达 1528 tokens/s。盘古 Embedded 7B 则引入了“快思考”和“慢思考”双系统,提升了推理效率,并在复杂问题上表现优于 Qwen3-8B。
百度开源文心 4.5 系列 10 款模型
6 月 30 日,百度开源文心 4.5 系列 10 款模型,涵盖了激活参数规模分别为 47B 和 3B 的混合专家(MoE)模型(最大的模型总参数量为 424B),以及 0.3B 的稠密参数模型,预训练权重和推理代码完全开源。针对 MoE 架构,百度提出了一种创新性的多模态异构模型结构,通过跨模态参数共享机制实现模态间知识融合,同时为各单一模态保留专用参数空间。文心 4.5 系列模型均使用飞桨深度学习框架进行高效训练、推理和部署。
阿里国际 AI 发布 Ovis-U1 统一的多模态理解与生成模型
7 月 1 日,阿里巴巴国际团队推出统一的多模态理解与生成模型「Ovis-U1」,集成多模态理解、图文生成与图像编辑三大功能于一身。该模型仅 3 亿参数规模,却具备出色的跨模态对齐能力,能识别图像物体、手写公式、视频内容,并按指令生成商品图、修改图像或解析数学问题。Ovis-U1 采用 DeepSpeed 优化训练流程,代码与权重以 Apache2.0 协议开源,可在 Hugging Face 与 GitHub 自由下载。训练过程中加入合规性筛选机制,确保输出内容安全可靠。开发者可直接调用模型进行二次开发,大幅降低多模态项目开发成本。
参考:完全开源!阿里国际发布:Ovis-U1 统一的多模态理解与生成模型
智谱发布并开源 GLM-4.1V-9B-Thinking 通用视觉语言模型
7 月 2 日,在智谱开放平台产业生态大会上,智谱宣布开源新一代通用视觉语言模型「GLM-4.1V-Thinking」,以推理能力为核心突破,刷新 10B 级别多模态模型性能上限。该模型通过引入“思维链推理机制(Chain-of-Thought Reasoning)”,显著提升复杂认知任务处理能力,支持图像、视频、文档等多模态输入形式。目前已在 HuggingFace 上线,并免费在智谱开放平台上线 GLM-4.1V-Thinking-Flash API。
参考:智谱新MaaS:10B级效果最好VLM上线,Agents应用空间也来了
百度发布自研视频生成模型 MuseSteamer 并上线「绘想」平台
7 月 2 日,在百度 AI DAY 开放日上,百度商业研发团队正式推出自研视频生成模型「MuseSteamer」,同时配套上线了 AI 视频创作平台「绘想」。MuseSteamer 是全球首个实现中英文音视频一体化生成的视频模型,支持 720p 到 1080p 分辨率的高质量视频生成。模型提供了 Turbo 版、Lite 版、Pro 版及全系列有声版模型矩阵,覆盖从普通创作者到专业影视机构的需求,其中 Turbo 版已上线绘想平台开启限时免费公测,支持 5s 的 720P 视频。
参考:百度商业视频生成模型MuseSteamer来了:音画一步到位,出厂自带bgm!
智源研究院发布 OmniGen 2 统一图像生成模型
7 月 3 日,北京智源人工智能研究院(BAAI)发布了统一图像生成模型「OmniGen 2」,一款主打文本生成图像、图像编辑与上下文创作的多模态模型。该模型采取了分离式架构解耦文本和图像,同时采用了 ViT 和 VAE 的双编码器策略。不同于其他工作,ViT 和 VAE 独立作用于 MLLM 和 Diffusion Transformer 中,提高图像一致性的同时保证原有的文字生成能力。
技术突破
边缘智能时代的 MiniCPM-V 系列突破
7 月 1 日,由清华大学和面壁智能团队联合推出的「MiniCPM-V」系列高效端侧多模态大模型,在边缘设备上实现了多模态能力的突破。MiniCPM-V 仅依靠 8B 参数实现了多模态综合性能超越 GPT-4V、Gemini Pro 等万亿参数云端模型,并在 11 个权威基准测试中超越了多种领先模型。该系列包含 MiniCPM-V 1.0、2.0 和 Llama3-V 2.5,采用自适应视觉编码和其他创新技术,有效降低了计算和内存需求,使其可以在智能手机、平板等设备上高效运行。
参考:成果 | MiniCPM-V 系列高效端侧多模态大模型被 Nature 子刊录用
Sakana AI 推出新型推理时扩展算法,AI 模型协作性能提升 30%
7 月 1 日,日本 Sakana AI 公司推出了一种新型推理时扩展算法:自适应分支蒙特卡洛树搜索(AB-MCTS,Adaptive Branching Monte Carlo Tree Search)。该算法通过利用不同模型的特性,优化了解决复杂问题的能力,并通过动态选择最优模型来增强集体智能,实现了多个前沿 AI 模型(如 Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)的协作,在 ARC-AGI-2 基准测试中提升了 30%的性能,目前已开源底层算法 TreeQuest 便于用户应用。
参考:“模型三巨头”协作性能飙升30%,Sakana AI提出新型推理时扩展算法,让模型间协作性能大幅提升
推荐系统生成与表征统一框架 RecFound,提升推荐模型性能
7 月 2 日消息,由上海交通大学与华为诺亚方舟实验室提出的「RecFound」框架,成功解决了推荐系统多任务学习中的知识冲突与收敛失衡问题,推动了生成式与表征式任务的统一研究。该框架采用任务化低秩专家混合(TMoLE)、步进式收敛导向样本调度器(S2Sched)和 TIES-Merging 模型融合技术,优化模型、数据与训练策略,提升了推荐模型的整体性能,是推荐基础模型领域的重要突破。
参考:RecFound:面向推荐系统的生成式表征学习统一框架
华为开源超大规模 MoE 模型推理框架 Omni-Infer
7 月 2 日消息,华为开源超大规模 MoE 模型推理框架「Omni-Infer」。该项目包括推理框架和推理加速套件,兼容 vLLM 等多种主流开源推理框架,优化了调度、负载均衡和资源分配。目前多家机构如北京智源研究院、上海人工智能实验室已接入合作。此外,该项目还进行专业开源社区建设,通过 PMC 和 SIG 两级机制实现透明决策。
DeepSWE 开源 AI Agent 登顶榜首
7 月 3 日,著名大模型训练平台 Together.ai 与 Agentica 联合推出开源 AI Agent 框架「DeepSWE」。DeepSWE 基于阿里开源 Qwen3-32B 模型,通过 rLLM 框架和改进版 GRPO++算法,在 64 个 H100 GPU 上历时 6 天进行强化学习训练,覆盖 4500 个真实软件工程任务(如代码修复、功能实现、构建测试等),通过稀疏奖励机制优化解决方案生成,在 SWE-Bench-Verified 测试中 Pass@1 准确率达 59%,性能居所有开源 Agent 框架榜首。
参考:RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
AI 研究报告
Gartner 发布 2025 年中国人工智能十大趋势
6 月 27 日,Gartner 发布 2025 年中国人工智能(AI)十大趋势。Gartner 高级首席分析师费天祺表示:“中国在 AI 研发和部署方面取得了巨大进步,包括生成式人工智能(GenAI)技术,并且正凭借强大的设计、工程能力和日益完善的生态系统推动 AI 行业快速前进。中国的 AI 行业及相关生态系统涵盖了 IT 基础设施、数据、人才、安全和模型工程创新,在实现高效资源利用的前提下推动了大语言模型(LLM)及其他应用的快速发展。这些变化构成了今年中国 AI 十大趋势的核心主题。”
国家标准 GB/T 45654—2025《网络安全技术 生成式人工智能服务安全基本要求》
6 月 30 日,全国网络安全标准化技术委员会发布《GB/T 45654—2025 网络安全技术 生成式人工智能服务安全基本要求》。文件规定了生成式人工智能服务在训练数据安全、模型安全、安全措施等方面的要求,并给出了各项安全要求对应的证实方法供参考。适用于服务提供者开展生成式人工智能服务相关活动,也为相关主管部门以及第三方评估机构开展大模型备案管理、安全测评提供技术参考。
参考:全文发布 | 国家标准GB/T 45654—2025《网络安全技术 生成式人工智能服务安全基本要求》
Iconiq Capital 发布《2025 年 AI 现状报告》
6 月 30 日消息,硅谷财富管理巨头 Iconiq Capital 发布的《2025 年 AI 现状报告》指出,AI 正进入实战落地阶段,企业需关注成本控制与灵活产品策略,同时数据显示数据处理费用已超过训练成本。
参考:比女皇报告还炸裂!67页AI深度调研刷屏,全球LLM大决战真正开始
AI 产业深度报告《State of Foundation Models》(2025)
7 月 3 日消息,Innovation Endeavors 合伙人 Davis Treybig 近期发布了一份 AI 产业深度报告《State of Foundation Models》(2025),报告从模型、技术、应用、智能体、市场、公司架构、未来机会七个维度出发,全面且深入地剖析了 AI 产业当下的发展现状及未来趋势。报告观点:AI 不再是渐进式改良,而是生产力的代际跃迁;成功的 AI 应用已不再依赖单一模型;基础模型公司正被迫向应用层移动;当数据收集成本降低 1000 倍,“数据即服务”将迎来前所未有的机遇等。
国内 AI 大模型产业发展态势研究报告(2025)发布
7 月 4 日,AI 云原生智能算力架构平台发布国内 AI 大模型产业发展态势研究报告(2025)。报告围绕国内 AI 大模型产业展开全面剖析,指出 AI 大模型是全球科技竞争新高地,并从政策、技术、市场三方面分析产业发展驱动力。政策上,我国及各地发布多项支持政策;技术上,Transformer 架构奠定基础,语言大模型关键技术推动发展;市场上,办公、制造等多场景的需求推动产业前进。
评论