MIAOYUN | 每周 AI 新鲜事儿(06.20-06.27)

紧跟技术浪潮,洞察行业未来,MIAOYUN「每周 AI 新鲜事儿」,为您精选全球 AI 领域的最新动态,涵盖 AI 大模型技术、AI 产品及工具、市场动态及趋势发展等,助您走在智能时代前沿,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 开源大模型
华为云发布盘古大模型 5.5,宣布新一代昇腾 AI 云服务上线,发布鸿蒙智能体
6 月 20 日,在华为开发者大会 2025(HDC 2025)主题演讲中,华为常务董事、华为云计算 CEO 张平安宣布基于 CloudMatrix384 超节点的新一代昇腾 AI 云服务全面上线,为大模型应用提供澎湃算力;宣布盘古大模型 5.5 正式发布,自然语言处理(NLP)、计算机视觉(CV)、多模态、预测、科学计算五大基础模型全面升级。同时,张平安还分享了盘古大模型在农业、工业、科研等领域的丰富创新应用和落地实践,持续深入行业解难题,成就行业 AI 先锋。
会上,华为还推出鸿蒙智能体,首批超 50 个智能体即将上线,涵盖效率工具、教育医疗等领域,实现多设备协同。用户可通过导航条、语音等方式调用,如 ChatExcel 聊天处理 Excel,大众点评智能体推荐美食等,大幅降低使用门槛,为鸿蒙生态注入新活力,开启智能交互新纪元。
参考:华为云发布盘古大模型5.5,宣布新一代昇腾AI云服务上线,成就行业AI先锋
昆仑万维正式发布并开源 Skywork-SWE-32B 模型
6 月 20 日,昆仑万维发布软件工程(Software Engineering, SWE)自主代码智能体基座模型 Skywork-SWE,在开源 32B 模型规模下实现了业界最强的仓库级代码修复能力。该模型基于超 1 万个 GitHub 仓库任务实例构建最大可验证数据集,在 SWE-bench Verified 基准上的准确率达到 38.0%,通过测试扩展技术可提升至 47.0%,性能领先开源模型。团队通过三阶段收集验证训练数据,从 15 万个仓库中筛选出高质量样本,并借助 OpenHands 框架记录智能体解决过程,确保模型训练效果。目前,Skywork-SWE-32B 模型已在 Hugging Face 平台上线,开发者可免费获取。
参考:昆仑万维正式发布并开源Skywork-SWE-32B,揭示LLM软件工程能力的数据缩放定律
腾讯 AI Lab 开源 SongGeneration 音乐生成大模型
6 月 20 日,腾讯 AI Lab 推出并开源音乐生成大模型 SongGeneration,专注解决 AIGC 音乐中音质、音乐性与生成速度这三大难题,基于 LLM-DiT 的融合架构,模型在保持生成速度的同时,显著提升了音质表现,生成歌曲准确度相较部分商业闭源模型表现出相当甚至更优的质量,同时在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。该模型还支持文本控制、风格跟随、多轨生成和音色跟随,提供灵活的音乐风格调整与简单易用的操作接口。
参考:一键生成歌曲,腾讯AI Lab开源音乐生成大模型 SongGeneration
谷歌开源实时音乐生成模型 Magenta RealTime
6 月 22 日,Google Gemma 团队发布开源了实时音乐生成模型 Magenta RealTime,基于 Transformer 架构、8 亿参数,依托 Lyria RealTime 技术,能以 2 秒音频片段为单位生成 48kHz 立体声音频,支持通过文本提示实时调整风格、节奏等,在游戏、直播等场景可动态混音。目前,已在 Hugging Face 开源并提供 Colab 运行环境,单次输出限制 10 秒但侧重实时交互创作。
参考:谷歌开源轻量版音乐生成项目!Magenta RealTime:全球首个支持实时生成音乐的模型!
网易有道发布并开源“子曰 3”系列大模型
6 月 23 日,网易有道正式发布并开源旗下最新“子曰 3”系列大模型(Confucius3-Math),这是国内首个专注于数学教育,可在单块消费级 GPU 上高效运行的开源推理模型。该模型在 GAOKAO-Bench(Math)评测中取得 98.5 分的优异成绩,推理性能约为 DeepSeek R1 的 15 倍,且可在普通消费级 GPU 上运行,服务成本每百万 token 低至 0.15 美元。
MiniMax 发布 Voice Design 音色设计功能
6 月 23 日,MiniMax 发布 Voice Design 音色设计功能,实现基于自然语言描述的多维语音控制,可生成前所未有的虚拟音色。该功能与 Speech-02 语音模型深度融合,支持“任意语言 ×任意口音×任意音色”的自由组合,满足个性化语音交互需求。目前,Voice Design 已在 MiniMax 语音平台上线,广泛应用于虚拟助手、语音播报、游戏角色配音等领域,全球合作用户已覆盖 30 多个国家。
参考:Day 5/5:Voice Design,万般声韵,因你而生
阿里云推出自动驾驶模型加速框架
6 月 23 日,阿里云正式推出面向自动驾驶领域模型的训练、推理加速框架 PAI-TurboX。该框架可提升感知、规划控制乃至世界模型的训推效率,在多个行业模型的训练任务中,PAI-TurboX 均可缩短 50%的时间。
VectorSpaceLab 开源全能多模态模型 OmniGen2
6 月 24 日消息,VectorSpaceLab 在 Hugging Face 平台正式开源全能多模态模型 OmniGen2,以创新性双组件架构和强大的视觉处理能力,为研究者和开发者提供了高效的可控生成式 AI 基础工具。这款模型由 30 亿参数的视觉语言模型(VLM)Qwen-VL-2.5 与 40 亿参数的扩散模型组合而成,通过冻结的 VLM 解析视觉信号和用户指令,结合扩散模型实现高质量图像生成,在视觉理解、文本生成图像、指令引导图像编辑和上下文生成四大核心场景中展现出领先性能。
参考:开源版Flux.1 Kontext!OmniGen2:智源研究院开源的多模态图像编辑工具!
火山引擎发布模态向量化模型 Seed1.6-Embedding
6 月 24 日,火山引擎发布全模态向量化模型 Seed1.6-Embedding,通过三大核心突破,重塑向量化能力边界:不仅在权威测评榜单中包揽中文文本、多模态全面任务的 SOTA 成绩,更首次实现「文本+图像+视频」混合模态的融合检索,并通过自定义指令能力大幅降低业务落地门槛。
参考:Seed1.6-Embedding模型登顶多榜单SOTA
快手开源多模态大模型 Kwai Keye-VL
6 月 26 日,快手发布并开源多模态大语言模型 Kwai Keye-VL,该模型以 Qwen3-8B 语言模型为基础,引入了基于开源 SigLIP 初始化的 VisionEncoder,Kwai Keye-VL 能够深度融合并处理文本、图像、视频等多模态信息。模型采用 600B 大规模数据训练,通过四阶段渐进式预训练策略和创新的两阶段推理能力强化,实现复杂视觉感知与逻辑思考;在 VideoMME 评测得分 67.4 分超越竞品,内部短视频场景评测领先 SOTA 模型超 10%。
参考:快手开源多模态大模型Kwai Keye-VL,引领视频理解新纪元
技术突破
腾讯发布一念 LLM 0.6.0 新版本,满血版 DeepSeek 推理吞吐提升 48%
6 月 23 日,腾讯发布一念 LLM 0.6.0 新版本,该版本支持 DeepSeek 模型和分布式推理,针对 PCG 业务中 GPU 资源供应灵活性要求高的特点,实现了流水线并行(PP)的 multi-batch 分布式推理方式,相比业界常见的多机 DP+EP 方案,跨机通讯量降低 98.3%,机器之间可用 TCP 通讯,降低运营难度,且吞吐达 9084 tokens/s,比业界开源框架(vllm/sglang 最新版)高 48%。
参考:腾讯一念LLM新版本发布:硬刚核心调度,满血版DeepSeek推理吞吐提升48%
龙芯中科发布新一代国产通用处理器龙芯 3C6000
6 月 26 日,在 2025 龙芯产品发布暨用户大会上,龙芯中科发布了新一代通用处理器龙芯 3C6000 系列芯片、工控领域及移动终端处理器龙芯 2K3000/3B6000M 芯片,以及相关整机和解决方案。龙芯 3C6000 采用我国自主设计的指令系统龙架构(LoongArchTM),无需依赖任何国外授权技术,是我国自主研发、自主可控的新一代通用处理器,可满足通算、智算、存储、工控、工作站等多场景的计算需求。目前,龙芯 3C6000 系列处理器已获《安全可靠测评公告》当前最高等级二级认证,可确保关键领域应用安全。
AI 工具
百度文心快码 Comate AI IDE 正式发布
6 月 23 日,百度文心快码在百度 AI 开放日发布了独立 AI 原生开发环境工具——Comate AI IDE,是行业首个多模态、多智能体协同的 AI IDE。该产品基于文心大模型能力打造,支持全栈国产化部署,在“智能”、“拓展”、“协同”、“灵感”四大方面实现全方位链接,具备多项核心能力:AI 辅助编码全流程、多智能体协同、多模态能力增强、支持 MCP 等,已成为 AI 时代工程师的“工作台”。
参考:AI编程再突破,文心快码发布行业首个多模态、多智能体协同AI IDE
开源 AI 设计工具 Jaaz 挑战商业 AI 设计平台格局
6 月 23 日消息,国产开源 AI 设计工具 Jaaz 近期在开发者社区引发关注,被誉为 Lovart AI 的本地化免费替代方案。Jaaz 基于 ComfyUI 框架构建,支持多种图像生成模型本地运行,并可通过自然语言交互完成海报、故事板等创意设计任务,具备对象移除、风格迁移、角色一致性生成等功能,适用于创意设计、教育等多个场景。目前,Jaaz 已在 GitHub 免费开源,未来规划拓展视频生成功能。
谷歌推出开源 AI 编程工具 Gemini CLI
当地时间 6 月 25 日,Google 发布了一篇关于开源编程工具 Gemini CLI 的文章(不久删除),但内容已被广泛传播。该工具是一款旨在从终端本地运行的代理式 AI 工具,搭载自研的 Gemini 2.5 Pro 推理模型,支持高达 100 万个 token 的超大上下文窗口,可处理复杂代码库和多模态任务;同时与 Gemini Code Assist 代码助手深度整合,内置模型上下文协议(MCP)并接入 Google 搜索功能;免费额度也远高于同类产品,每分钟可调用 60 次,每日最多 1000 次。
参考:谷歌杀疯了!Gemini CLI 重磅发布:对标 Cursor 的开源 AI 编程神器,个人完全免费
AI Agent
模型即 Agent,月之暗面发布首款深度研究智能体 Kimi-Researcher
6 月 20 日,月之暗面发布首款深度研究智能体 Kimi-Researcher,该产品基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。作为擅长多轮搜索与推理的智能体,Kimi-Researcher 在“人类终极考验”(HLE)测试中 Pass@1 得分率达 26.9%、Pass@4 准确率 40.17%,超越谷歌和 OpenAI 同类产品,还在 xbench-DeepSearch 等多项基准测试中表现出色。
参考:模型即 Agent,Kimi-Researcher(深度研究)开启内测
「码上飞」首个支持直接生成华为鸿蒙应用的 AI Agent
6 月 20 日至 22 日,在华为开发者大会(HDC 2025)上,「码上飞」AI Agent 平台广获开发者关注,该平台支持通过自然语言对话直接生成鸿蒙应用。「码上飞」采用多智能体系统(MAS)技术,内置多个 Agent 协同完成从需求分析到部署的全流程自动化开发。实测显示用户仅需 5 分钟即可生成功能完整的应用,支持一键发布为小程序、APP 或网站,并可获取源代码。
参考:北大出品:全球首个支持生成华为鸿蒙应用的AI Agent来了
AI 产业趋势
美国经济学家语言:AGI 可能在 2-5 年内实现,将伴随 AI 失业潮
6 月 23 日消息,哈佛商学院放出视频,采访了一位美国经济学家。他向全人类预警:AGI 可能在短短 2-5 年内就将实现,AI 失业潮将席卷全球,一不小心,全球经济就将发生大崩溃!他向全人类预警:AGI 可能在短短 2-5 年内就将实现,AI 失业潮将席卷全球,一不小心,全球经济就将发生大崩溃!
参考:哈佛重磅预警!经济学家预言:全球AI失业潮2年来袭,世界经济大崩盘在即
Gartner 发布 2025 年中国人工智能十大趋势
当地时间 6 月 25 日,Gartner 发布 2025 年中国人工智能(AI)十大趋势,指出企业应关注 AI 可持续发展路径、实际效益与应用场景。这十大趋势包括开放式 GenAI 模型、“自建” 策略倾向、代理型 AI、节俭型 AI、工程化能力、协作式 AI 防御体系、快速增长的 AI 人才、无处不在的 AI、包容性 AI 生态系统、从数据到 AI 的生态系统。
评论