MIAOYUN | 每周 AI 新鲜事儿(11.28-12.05)

本周全球科技企业密集发布 AI 领域新成果,腾讯、昆仑万维、快手、Meta、智谱 AI、生数科技、DeepSeek、Runway、NVIDIA、华为、Mistral AI、阿里、火山引擎、可灵 AI 等推出多模态、3D 生成、视频生成、推理优化等方向新模型,聚焦性能提升与商业化适配;技术上,华为发布 MoE 推理优化技术、商汤开源原生多模态架构;同时,阶跃星辰开源 GUI 智能体,拍我 AI、Anuttacon 推出 AI 创作与聊天工具,覆盖生成式 AI、具身智能、行业应用等核心场景,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 大模型
腾讯「混元 3D Studio 1.1」接入「PolyGen 1.5」,直出艺术家级 3D 资产
11 月 28 日,腾讯混元正式推出「混元 3D Studio 1.1」,并接入最新的美术级 3D 生成大模型「混元 3D PolyGen 1.5」,能够直出艺术家级的 3D 资产。「PolyGen 1.5」首创端到端原生四边形网格生成方法,可直接学习四边形拓扑,生成连贯边缘环,布线效果大幅度提升,支持混合拓扑,适用于软/硬表面模型,进一步提升 3D 生成模型的专业可用性。
图:PolyGen1.5 与 mesh 自回归 SOTA 方法效果对比
昆仑万维发布「Mureka V7.6/O2」双模型,音质与效率双提升
11 月 28 日,昆仑万维发布「Mureka V7.6」与「Mureka O2」模型,新模型在音乐性、编曲能力、音质质感和 Prompt 贴合度等多个维度相较前序版本实现显著提升,响应速度和推理效率大幅增强,更适合大规模商业化使用。自今年 3 月发布 O1 与 V6 以来,「Mureka」已吸引近 700 万新增注册用户,覆盖百余国家和地区。
参考:Mureka V7.6和Mureka O2模型正式发布,开启AI音乐创作黄金时代
快手发布「Keye-VL-671B-A37B」模型,升级跨模态对齐能力
11 月 28 日,快手发布了新一代旗舰多模态大语言模型「Keye-VL-671B-A37B」,模型基于 DeepSeek-V3-Terminus 打造,拥有 671B 参数,在保持基础模型通用能力的前提下,对视觉感知、跨模态对齐与复杂推理链路进行了升级,实现了较强的多模态理解和复杂推理能力。
参考:视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
智谱 AI 发布「清影 2.0」,一句话生成 1080P 视频自带 AI 音效
11 月 28 日,智谱 AI 推出视频生成模型「清影 2.0」,基于自研 CogVideoX 大模型架构,实现了用文本直接生成 1080P 高清视频的突破,还集成了 CogSound 音效模型,开创了"文生音画"一体化体验的新时代。「清影 2.0」支持最长 10 秒的 1080P 分辨率视频生成,可满足大多数短视频内容创作;集成的 CogSound 音效模型能够根据视频内容智能匹配背景音乐、环境音效等音频元素,实现音画同步的沉浸式体验。
生数科技「Vidu Q2」全球同步上线,生图功能升级,5 秒极速生成
12 月 1 日,生数科技「Vidu Q2」全球同步上线,升级参考生图功能,新增文生图、图像编辑功能,以超强主体一致性、5 秒极速生成、任意比例及 4K 输出等优势,在 Artificial Analysis 全球图像编辑榜单跻身前四超越「GPT-5」,还打通“生图-保存主体-生视频”一站式工作流,覆盖多商业化场景。
第 1-2 秒:中景侧方环绕,蓝袍古风男子疾结“子/丑/寅”印,指尖淡绿荧光,身侧武器轻颤带微光粒子
第 3-4 秒:近景正面推近,手印流转“卯/辰/巳”,掌心淡绿光团膨胀,灵气粒子绕臂盘旋 5 秒:特写第 5 秒:俯视固定,终结“午/未/申”印,淡绿灵光炸成涟漪扩散
体验链接:www.vidu.cn
参考:Vidu Q2生图掀起「一致性革命」,限时无限免费来袭,全球同步上线
「DeepSeek-V3.2」双模型正式发布,强化 Agent 能力,融入思考推理
12 月 1 日,深度求索正式发布「DeepSeek-V3.2」及常思考增强版 「DeepSeek-V3.2-Speciale」两款模型,前者平衡推理能力与输出长度,适合日常使用及通用 Agent 任务;后者融合数学定理证明能力,在 IMO、ICPC 等国际赛事中斩获金牌,推理性能媲美「Gemini-3.0-Pro」。新模型突破过往局限,首次实现思考模式与非思考模式的工具调用融合,通过大规模 Agent 训练数据合成方法构造 1800+环境、85000+复杂指令,大幅提升泛化能力。
参考:DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
Runway 推出「Gen-4.5」视频模型,登顶文本转视频 SOTA
12 月 1 日,美国 AI 初创公司 Runway 推出「Gen-4.5」视频模型,在 Artificial Analysis 文本转视频排行榜中以 1247 Elo 评分拿下 SOTA,超越 Google 和 OpenAI 同类产品。该模型擅长理解并执行复杂序列式指令,可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化,物体移动具备真实重量感与动量特征。
参考:Runway重夺全球第一!1247分碾压谷歌Veo3,没有千亿算力也能干翻科技巨头
NVIDIA 开源全球首个 VLA 模型「Alpamayo-R1」,突破 L4 自动驾驶“黑箱”困境
12 月 1 日,NVIDIA 宣布开源全球首个推理型视觉-语言-动作(VLA)模型「Alpamayo-R1」(AR1),支持摄像头画面与文本指令处理及行车决策输出,主打可解释性,创新引入标注“为什么这样做”的因果链(CoC)数据集、扩散式轨迹解码器及多阶段训练策略,通过高效多相机时序感知的统一编码方式,实现规划精度提升 12%、越界率降低 35%等多项性能优化,端到端延迟仅 99ms,能让自动驾驶 AI 具备“会开车+会思考+会解释”的能力,推动自动驾驶从“黑箱”迈向可解释的 L4 级别。
华为开源扩散语言模型「openPangu-R-7B-Diffusion」,双模式解码创 SOTA
12 月 2 日消息,华为开源扩散语言模型「openPangu-R-7B-Diffusion」,基于 「openPangu-Embedded-7B」经 800B tokens 续训练,创新融合前文因果注意力掩码架构,突破 32K 上下文长度限制,具备“自回归+扩散”双模式解码能力(并行解码速度最高达自回归的 2.5 倍)及“慢思考”能力,在多学科知识、数学推理、代码生成等权威基准中创下 7B 参数量级 SOTA 纪录,其训练推理全流程依托昇腾 NPU 集群完成。
参考:华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」
火山引擎发布豆包图像创作模型「Doubao-Seedream-4.5」,强化多图组合能力
12 月 3 日,火山引擎正式发布豆包图像创作模型「Doubao-Seedream-4.5」,该模型在主体一致性、指令遵循精准度、空间逻辑理解及美学表现力上实现迭代,不仅强化了多图组合生成能力,优化了海报排版与 Logo 设计功能,支持高精度图文混排,还能精准响应高阶复杂指令,凭借内置的世界知识与空间逻辑实现合理透视关系和物理规律还原,同时显著提升画面立体感与氛围感,可生成电影级质感图像,目前已全面支持广告营销、电商运营、影视制作、数字娱乐及教育等核心场景。
参考:豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景
北邮联合小米提出「C²-Cite」溯源大模型,革新 AI 内容可信度技术路径
12 月 3 日,北邮百家 AI 团队联合小米大模型团队提出的溯源大模型「C²-Cite」(已被 WSDM 2026 收录),首创上下文感知的归因生成技术,不仅能让大模型在生成内容时自动标注精准的信息来源,更能确保生成内容与引用的外部知识高度语义对齐,实现每一处表述都有溯源依据、与参考来源深度协同,从根本上解决大模型生成内容的可信度问题。
参考:句子级溯源+生成式归因,C²-Cite重塑大模型可信度
Mistral AI 全量开源「Mistral 3」系列模型,硬刚 DeepSeek
12 月 3 日,法国公司 Mistral AI 发布开源「Mistral 3」系列模型,包含旗舰模型「Mistral Large 3」(总参数 675B,激活参数 41B,MoE 架构)及 3B、8B、14B 尺寸的「Ministral 3」小模型(均有 pretraining、instruct、reasoning 三个版本,支持图像理解与 40+语言)。训练使用 3000 张 NVIDIA H200,LMArena 排名开源非推理模型第二、总榜第六,且该系列模型已与 NVIDIA 等合作优化部署,支持多种硬件设备与算力平台 API 服务,此次开源被视为对 DeepSeek 激进开源策略的战略应对。
阿里通义千问上线「Qwen3-Learning」,推出拍题批改双功能
12 月 3 日,阿里巴巴通义千问上线学习大模型「Qwen3-Learning」,推出拍题答疑和作业批改两大功能。该模型采用混合专家(MoE)架构,总参数量 2350 亿,激活仅需 220 亿,支持拍照识别题目内容,兼容印刷体与手写体,覆盖小学至高中全学科作业批改与解题辅导,融合多国考试体系与真题数据,实现跨文化、多语言精准解答。
参考:千问再放大招!阿里最强学习模型上线,能讲题、会批改、懂专业,直接把老师“请回家”
快手旗下可灵 AI 全能灵感周,连发多款新模型与新功能
快手旗下可灵 AI 全能灵感周,连续 5 天发布新模型与新产品,分别是统一多模态视频大模型「可灵 O1」、新一代全能型图片模型「可灵图片 O1」、音画同出模型「可灵 2.6」、「可灵数字人 2.0」等。
12 月 1 日,可灵 AI 正式上线全球首个统一多模态视频大模型「可灵 O1」,打破功能割裂,构建全新生成式底座。 该模型采用 MVL(多模态视觉语言)交互架构与 Chain-of-thought 技术,支持照片、视频、文字等多模态输入,可实现创意视频生成、局部编辑、镜头延展、动作捕捉等功能,能解决视频一致性难题,支持多主体组合及 3-10 秒、多种比例的视频生成。
12 月 2 日,可灵 AI 全量上线「可灵图片 O1」全能型图像模型,兼具特征全保真、细节全掌控、风格全复刻、创意全融合四大优势,支持图像生成、编辑、风格转换及创意呈现等一站式操作。
图 1 为参考图,输出图 2 为毛毡风格,图 3 为赛博朋克风格
体验链接:https://app.klingai.com/cn/?sessionid=
参考:Day2|可灵图片 O1 模型全量上线,让创意精准落地!
12 月 3 日,「可灵 2.6」全量上线,Web 端与 App 端同步推出首个音画同出模型,支持文生音画、图生音画两条高效创作路径,能单次生成画面、自然语音、匹配音效及环境氛围,实现音画同步,涵盖单人独白、旁白解说、多人对白、音乐表演、创意场景等多种适用场景,新手也可一键成片,创作效率翻倍,同时需注意禁止利用该 AI 生成功能从事违法活动。
Prompt:图中罗小黑角色唱“早安,喵午安,喵晚安,喵,喵,喵”,并根据歌词跳舞
体验链接:https://app.klingai.com/cn/?sessionid=
12 月 4 日,可灵 AI 全量上线「可灵数字人 2.0」,用户仅需上传角色图、添加配音内容、描述角色表现三步即可生成视频。该版本实现三大突破性升级,表演力全面进化,能精准控制体态动作、手势、表情及镜头语言,口型和手部细节更真实自然,同时打破时限支持最长 5 分钟单次视频生成,可覆盖深度科普、广告营销等多类长内容场景,评测得分超同类产品。
参考:Day4|可灵数字人 2.0 功能正式上线!不止会说,更会演!
12 月 5 日,可灵 AI 全新上线可灵 O1「主体库」和「对比模板」两大功能,其中「主体库」支持上传多角度参考图构建专属角色、道具和场景,可一键复用、自由组合(视频 O1 至多参考 7 个主体,图片 O1 至多参考 10 个主体),还能通过 AI 补图扩展视角、生成描述,同时提供海量官方主体素材;「对比模板」可一键整合多模态创作的输入与成品,实现 Before& After 高效同框对比,助力爆款传播。
AI Agent
阶跃星辰开源 GUI 智能体「GELab-Zero」,同步推出 AndroidDaily 评测标准
11 月 29 日,阶跃星辰推出开源 GUI 智能体「GELab-Zero」,可适配几乎所有 App,该系统由轻量级推理基础设施与 4B 参数规模的 GUI Agent 模型(GELab-Zero-4B-preview)构成,最大亮点在于可在消费级设备上高效运行,实现低延迟响应与用户隐私保护。此外,阶跃还同步开源了基于真实业务场景的自建评测标准「AndroidDaily」,以期推动 GUI 领域模型评测向消费级、规模化应用发展。
参考:告别GUI Agent工程基建噩梦:阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署
AI 工具
「拍我 AI V5.5」发布,一键生成“分镜+音频”,AI 视频迈入内容生成时代
12 月 1 日,拍我 AI(PixVerse)推出「V5.5」版本,成为国内首个能一键生成“分镜+音频”、实现完整叙事的 AI 视频大模型。该模型具备“导演思维”,能理解镜头、声音与叙事的逻辑关系,支持多角色音画同步、多镜头自主编排,兼容图片转视频、一句话生成剧情短片等场景,在广告片、影视预演等商业化场景中表现出高完成度,推动 AI 视频从“素材生成”迈入“内容生成”时代,降低专业创作门槛,让普通人也能轻松开展视频创作。
Prompt:Anthropomorphic fox (Nick ) leaning on a snow-covered bridge railing in a winter city, wearing a brown puffy down jacket, thick knitted scarf and gloves; snowflakes falling, snow dusted on fur and clothing, frozen river surface in the background, snow-capped urban skyscrapers and warm glowing street lamps; cool winter atmosphere with soft cold-toned lighting; animated movie style, highly detailed fur textures, cinematic composition, 8K, realistic rendering
参考:不止 Sora2!拍我AI V5.5 更新:人人都能用 AI 视频当导演了
Anuttacon 推出「AnuNeko」聊天 AI,双聊天模式主打人格化交互
12 月 1 日,米哈游创始人蔡浩宇创立的 AI 公司 Anuttacon 推出 AI 聊天产品「AnuNeko」,主打人格化交互与情绪价值,产品提供 Orange Cat(温和友善的橘猫)和 Exotic Shorthair(毒舌暴躁的异国短毛猫)两种人格模型,响应迅速且支持多语言交互,但不具备联网、读链接、图片识别、复杂逻辑推理及高效代码编写能。该产品是 Anuttacon 探索 AI 构建沉浸式虚拟世界的重要布局。
参考:「原神之父」做了个毒舌 AI 猫娘,聊了两天的我被怼了八百回
技术突破
华为发布准万亿级 MoE 推理优化技术「Omni Proxy 智能调度」和「AMLA 加速算法」
11 月 28 日,华为发布了准万亿参数规模的 MoE 模型「openPangu-Ultra-MoE-718B-V1.1」及其量化版本,并开源了两大核心优化技术「Omni Proxy 智能调度」和「AMLA 加速算法」,通过六大创新解决传统调度痛点,推理加速套件覆盖服务扩展、任务调度等全栈能力,将硬件算力利用率推至 86.8%、优化推理链路中的计算与通信效率,有效解决了超大规模 MoE 模型在部署时面临的计算、访存和并行策略等挑战,为模型的生产级落地提供了可行路径。
参考:华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源
商汤开源行业首个原生多模态架构「NEO」,1/10 数据量追平旗舰级性能
12 月 1 日,商汤科技与南洋理工大学 S-Lab 合作研发并开源全新原生多模态模型架构「NEO」,打破传统“视觉编码器+语言模型”拼接架构局限。通过原生图块嵌入、三维旋转位置编码、多头注意力三大底层创新及双阶段融合训练策略,实现视觉与语言的深层统一,显著提升图像细节捕捉能力与跨模态关联效率,仅需 3.9 亿图文对(仅业界 1/10 的数据量)即可达到甚至超越现有原生 VLM 的综合性能,支持任意分辨率与长图像输入并可无缝扩展至视频、具身智能等领域,目前已开 2B 与 9B 规格模型。







评论