MIAOYUN | 每周 AI 新鲜事儿(07.04-07.11)

在科技飞速发展的当下,AI 已成为推动各行业变革的核心力量。为助力您紧跟 AI 发展浪潮,把握前沿动态,MIAOYUN 特别推出「每周 AI 新鲜事儿」,涵盖新模型发布、技术突破、AI 行业动态等多个方面,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 开源模型
昆仑万维开源第二代奖励模型「Skywork-Reward-V2」系列
7 月 4 日,昆仑万维继续开源第二代奖励模型「Skywork-Reward-V2」系列,共包含 8 个基于不同基座模型和不同大小的奖励模型,参数规模从 6 亿到 80 亿不等,在七大主流奖励模型评测榜单中全面领先。该系列基于 4000 万对混合偏好数据训练,具备高泛化性、安全性与抗偏差能力,适用于强化学习中的多维人类偏好对齐。
参考:昆仑万维再次开源奖励模型!Skywork-Reward-V2在七大主流奖励模型评测榜单中全面夺魁
腾讯混元推出业界首个美术级 3D 生成大模型「Hunyuan3D-PolyGen」
7 月 7 日,腾讯混元 3D 再次升级,带来了业界首个美术级 3D 生成大模型「Hunyuan3D-PolyGen」。该模型结合自研高压缩率表征 BPT 技术和自回归框架,可生成面数达上万面的复杂几何模型,实现高面数、低冗余建模,强化学习提高生成稳定性,助力美术师建模效率超 70%。
参考:混元3D再升级,推出业界首个美术级3D生成大模型,大幅提升布线质量
阿里发布多模态大语言模型「HumanOmniV2」
7 月 8 日,阿里巴巴通义实验室团队推出最新多模态大语言模型「HumanOmniV2」,通过引入强制上下文总结机制、LLM 驱动的多维度奖励体系,以及基于 GRPO 的优化训练方法,提升了全局上下文理解与多模态推理能力,在多个权威基准测试中表现优异(如 IntentBench 测试准确率达 69.33%),具备广泛应用潜力,现阶段已开源。
蚂蚁集团联合浙大发布「KAG-Thinker」模型
7 月 8 日,蚂蚁集团知识引擎团队联合浙江大学、同济大学发布了其在结构化推理领域的最新成果「KAG-Thinker」模型。该模型是 KAG 框架的重要迭代升级,采用结构化推理方法,通过通过「广度拆分+深度求解」机制,提升复杂任务推理的逻辑性与稳定性,实验显示其性能优于现有 SOTA 方法 4.1%,并在医疗领域推出专业版 KAG-Med-Thinker 验证有效性。
参考:KAG-Thinker:「结构化」思考新范式,支持逻辑严谨的大模型复杂推理
昆仑万维开源 38B 参数多模态模型「Skywork-R1V 3.0」
7 月 9 日,昆仑万维发布并开源多模态推理模型「Skywork-R1V 3.0」,参数规模为 38B。其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力,推理速度提升 6 倍,在复杂逻辑建模与跨学科泛化方面实现双重飞跃。该模型在权威基准测试 MMMU 中以 76.0 分接近人类专家水平,并超过超过 Claude-3.7-Sonnet 和 GPT-4.5 等闭源模型。
参考:Skywork-R1V 3.0正式开源,高考数学142分,多学科推理MMMU达76高分,刷新开源模型性能上限
Hugging Face 发布轻量级开源语言模型「SmolLM3」
7 月 9 日,Hugging Face 发布轻量级开源语言模型「SmolLM3」,该模型只有 3B 参数,却在多项基准测试中性超越 Llama-3.2-3B 、Qwen2.5-3B 等同类开源模型。「SmolLM3」采用分组查询注意力与 NoPE 技术,推理效率高且支持最长 128K 上下文长度,支持英语、法语、西班牙语、德语等 6 种语言;其双模式推理机制可在“思考”与“非思考”之间切换,满足复杂任务动态需求。
参考:最强3B「小钢炮」,代码数据全公开!推理随意开关,128k超长上下文
xAI 推出「Grok 4」双版本,马斯克再战 AI 大模型战场
当地时间 7 月 9 日,马斯克旗下人工智能公司 xAI 正式发布其最新旗舰大模型「Grok 4」,号称是“世界上最强 AI 模型”。该系列包含 Grok 4 和 Grok 4 Heavy 两个版本,均为纯推理模型,分别面向内容创作与编程开发场景。Grok 4 是单代理版本,Grok 4 Heavy 是多代理版本,支持四个代理同时工作,上下文窗口最高支持 256k tokens。Grok4 采用 20 万个 GPU 进行训练,性能较前代提升 10 倍。
参考:号称“世界上最强AI模型”,马斯克旗下xAI发布Grok 4
微软开源「Phi-4-mini-flash-reasoning」,推理效率暴涨 10 倍
7 月 10 日,微软在官网开源了「Phi-4-mini-flash-reasoning」模型,在推理速度和资源占用方面实现重大突破。相比上一代模型推理效率提速 10 倍以上,延迟平均降低 2-3 倍,普通笔记本和平板设备均可流畅运行,尤其擅长处理长文本任务。该模型基于微软与斯坦福大学联合研发的 SambaY 架构,训练数据高达 5 万亿 token,在数学逻辑推理方面表现优异,32K 长度任务准确率达 78%,现已面向开发者开放体验。
参考:微软开源新版Phi-4:推理效率暴涨10倍,笔记本可运行
技术突破
全新的氛围编程,「上下文工程」构建真正高效的 AI Agent
7 月 6 日消息,继「提示工程」之后,硅谷爆火的「上下文工程」(Context Engineering)是一种系统化的方法论和技术栈,其核心目标是在与大语言模型(LLM)交互时,动态地、精准地为其构建和提供最相关、最优质的上下文(Context)信息,从而让模型能够生成更准确、更可靠、更具个性化的回答。
参考:「上下文工程」硅谷爆火,Karpathy亲自站台!提示工程瞬间失宠
基于能量的「Transformer EBT」全面超越主流模型 35%
7 月 8 日消息,弗吉尼亚大学团队最新提出 EBT(Energy-Based Transformers)架构,通过全新能量机制,首次实现在跨模态以及数据、参数、计算量和模型深度等多个维度全面超越 Transformer++(基于 Llama 2 的 Transformer 优化版本)的模型。数据显示,训练过程中 EBT 的扩展速率最高可提升 35%, 推理效率提高 29%,具备更强的扩展性和泛化能力。
参考:基于能量的Transformer横空出世!全面超越主流模型35%
「SpeedupLLM」框架验证大模型越用越快,推理成本降低 56%
7 月 9 日消息,Emory 大学提出「SpeedupLLM」框架,利用动态计算资源分配和记忆机制,使 LLM 在处理相似任务时,推理成本降低 56%,实验表明任务相似度越高提速越显著,情节式记忆在推理加速上表现更佳。论文首次系统性地验证了 LLM 在「有经验」的条件下,不仅性能不降,反而能大幅减少推理时间和计算资源,揭示了「AI 也能熟能生巧」的全新范式。
参考:大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算
视频超分辨率技术突破:「DLoRAL」开源项目实现 10 倍速高清化
7 月 9 日消息,香港理工大学与 OPPO 研究院联合研发的「DLoRAL」开源项目,利用 AI 技术实现了真实世界视频的高清修复,解决了视频处理中“清晰度”与“流畅性”难以兼顾的业界难题。「DLoRAL」通过创新的“双 LoRA 学习”思路,一个处理时间一致性(C-LoRA),一个增强空间细节(D-LoRA),并采用双阶段训练策略,实现单步扩散即可完成视频修复,速度是传统扩散方法的 10 倍以上。
参考:视频超分黑科技!开源项目:DLoRAL让模糊画面秒变高清,还不闪屏。
AI Agent
阿里通义开源网络智能体「WebSailor」
7 月 7 日,阿里通义宣布开源网络智能体「WebSailor」,包含 WebSailor-32B 和 WebSailor-72B 两个版本,具备强大的推理和检索能力,发布后在智能体评测集 BrowseComp 上登顶开源网络智能体榜单。
飞书 AI 全新升级,发布多款 AI 工具及 AI 应用成熟度模型
7 月 9 日,飞书发布知识问答、AI 会议和多维表格等工具,其中多维表格月活超千万行且容量翻 10 倍,加载速度降至 0.94 秒。企业级 AI Agent 飞书 aily 落地公牛集团,提升客服效率 30 倍,并发布行业首个 AI 应用成熟度标准模型。
参考:飞书 AI,全新升级!
Hugging Face 推出开源桌面机器人「Reachy Mini」
7 月 9 日,Hugging Face 推出最新开源桌面机器人「Reachy Mini」,专为人机交互、创意编程和 AI 实验而设计。该产品提供 Lite 版(299 美元)和无线版(449 美元),支持 Python 编程并预装演示程序,深度集成 Hugging Face Hub 平台(含超 170 万 AI 模型及 40 万数据集),预计 Lite 版下月发货,无线版年内发货。
参考:Hugging Face 开源机器人 Reachy Mini 开启预定
AI 行业动态
AI 行业人才争夺加剧,OpenAI 反手挖角 Meta 顶尖工程师
7 月 9 日,据《连线》杂志消息,OpenAI 总裁 Greg Brockman 本周在公司 Slack 群里宣布从 Tesla、xAI 和 Meta 挖来四位顶尖工程师,并将加入其关键的 Scaling(扩展)团队,助力「星门计划」(Stargate)项目。该项目是 OpenAI 与合作伙伴共同建设的全新 AI 基建中心,计划投资 5000 亿美元,目标是为下一代 AI 技术(如通用人工智能 AGI)提供算力和数据支持。
评论