MIAOYUN | 每周 AI 新鲜事儿(10.31-11.07)

本周 AI 领域动态密集,美团、360、银河通用、字节、腾讯、Kimi 与科大讯飞等分别发布多模态、图文、导航及视频推理模型;工具层面,寒武纪、百度、昆仑万维、腾讯均推出新平台或功能。技术方面,在长序列处理、多智能体协同及代码执行效率上取得突破。市场方面,OpenAI 与 AWS 达成巨额合作,小鹏发布人形机器人「IRON」。整体呈现高效化、多模态与实用化趋势,一起来回顾本周发生的 AI 新鲜事儿吧!
AI 大模型
腾讯联合厦门大学开源 3D 场景生成模型「FlashWorld」
10 月 30 日消息,腾讯联合厦门大学开源的 3D 场景生成模型「FlashWorld」,能够在单 GPU 上以 5-10 秒的速度,从单张图像或文本提示中生成高质量 3D 场景,速度提升可达 10 至 100 倍。该模型通过跨模式蒸馏技术,结合多视角和三维两种方案的优势,实现了高保真与 3D 一致性。
参考:世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验
以色列 AI 公司 Lightricks 推出视频生成模型「LTX-2 AI」
10 月 31 日,以色列 AI 公司 Lightricks 推出视频生成模型「LTX-2 AI」,成为首个支持原生 4K 分辨率、50 帧每秒输出且具备音画同步能力的开源模型。该模型采用混合扩散-变换器架构,是一个融合“时域(Time)+空间(Frame)+声波(Audio)”的扩散模型,支持多种输入控制方式,包括镜头运动指令、物体轨迹设定等,赋予创作者更高自由度。内置 LoRA 微调模块,允许用户使用少量样本训练专属风格模型,保持跨场景一致性。此外,「LTX-2 AI」可在消费级 GPU 上本地运行。
参考:LTX-2:电影级视频生成模型 一次性生成20秒带声音+口型同步的完整叙事高清视频
美团发布并开源全模态实时交互大模型「LongCat-Flash-Omni」
11 月 3 日,美团正式发布并开源全模态实时交互大模型「LongCat-Flash-Omni」,并同步推出首款 AI 助手 App「LongCat」,开启多模态交互新阶段。该模型总参数量 560B,激活参数 27B,是业界首个实现全模态覆盖、端到端架构、大参数量高效推理于一体的开源大语言模型,支持 128K 上下文窗口及超 8 分钟音视频交互,在文本、图像、音频、视频等各项模态的能力达到开源 SOTA。
参考:LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代
360 人工智能研究院开源「FG-CLIP2」成最强图文跨模态 VLM 模型
11 月 4 日,360 人工智能研究院最新开源的「FG-CLIP2」模型,在八大类任务、29 项测试中,全面超越 Google 与 Meta,成为目前最强的图文跨模态视觉基础(VLM)模型。该模型通过实现局部细粒度识别与中英双语均衡训练,解决了以往视觉模型的局部理解能力不足的问题,能够准确解析复杂场景和空间关系。其训练体系采用了 FineHARD 数据集和“两阶段”训练策略,使模型在细节、空间与语义的感知能力显著提升,推动 AI 视觉理解的行业基准向前发展。
参考:超越谷歌、Meta,360的FG-CLIP2为何能成为“全球最强图文模型”?
银河通用联合高校推出首个跨本体全域环视导航基座大模型「NavFoM」
11 月 5 日,银河通用联合北京大学、阿德莱德大学等多所顶尖高校推出全球首个跨本体全域环视导航基座大模型「NavFoM」(Navigation Foundation Model)。该模型创新应用 TVI Tokens 与 BATS 策略两项关键技术,还构建了一个跨任务数据集,包含 800 万条跨任务、跨本体导航数据和 400 万条开放问答数据,实现时空理解和实时响应,让机器人“看懂指令、自主走路”。基于该模型,银河通用还发布「TrackVLA++」、「UrbanVLA」和「MM-Nav」三个应用模型,针对不同的落地需求。
北京字节联合开源首个时空推理视频模型「Open-o3 Video」
11 月 5 日,北京大学和字节跳动联合推出了首个将显式时空证据嵌入视频推理全过程的开源模型「Open-o3 Video」,让 AI 不仅能回答有关视频内容问题,还能在思维过程中同步直观标出具体位置,真正实现有迹可循的视频推理。模型采用 non-agent 架构,避免了复杂的工具调用和多轮推理,关键指标可提升至 24.2%,性能表现超越「GPT-4o」和「Gemini-2-Flash」等模型。
参考:北大字节开源首个时空推理视频模型!思考过程全透明,性能超越GPT-4o
月之暗面发布迄今能力最强的开源思考模型「Kimi K2 Thinking」
11 月 6 日,月之暗面发布「Kimi K2 Thinking」,是 Kimi 迄今能力最强的开源思考模型,具有通用 Agentic 能力和推理能力的思考模型,擅长深度推理,可以通过多轮工具调用,解决各类复杂的难题。在人类最后的考试(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA 水平。
参考:Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力
科大讯飞发布「讯飞星火 X1.5」及系列 AI 产品
11 月 6 日,科大讯飞发布全新星火深度推理大模型「X1.5」,基于全栈国产算力平台训练,采用 MoE 架构,总参数 293B,推理激活仅 30B,推理效率相比「讯飞星火 X1」提升 100%。其语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力等六大核心能力对标国际主流大模型,其中,数学能力持续保持国际领先。
参考:更懂你的AI,科大讯飞发布讯飞星火X1.5及系列AI产品
AI 工具
寒武纪推出基础软件平台「Cambricon NeuWare」
11 月 3 日,寒武纪正式发布基础软件平台「Cambricon NeuWare」,让用户与开发者能够跨越不同的寒武纪硬件和应用场景,降低上手难度,提升开发效率,快速迁移与部署 AI 应用。该平台全面兼容最新 PyTorch 版本和 Triton 算子开发语言,支持用户模型和自定义算子快速迁移,在大模型与搜广推训练推理方面完成大规模技术验证,支持 DeepSeek V3、Qwen 系列等 MoE 类模型训练,实现发布即适配。此外,平台还提供完整的驱动运行时库、编译器、算子库和集群工具,推动 AI 能力真正走进千行百业。
百度文心 APP 推出「魔法漫画」功能
11 月 3 日,百度文心 APP 推出「魔法漫画」功能,用户只需一句话或一张照片,两分钟即可生成多图多页、剧情完整的 AI 连载漫画。该功能支持自定义角色形象、九种风格选择(吉卜力、二次元、国风水墨等),每页漫画自动生成文字解说,可一次性生成 6-7 页。此外,还支持“续写”和“改编”功能,用户可基于原剧情延伸或重写新版本,生成的漫画可下载图片或分享到微信朋友圈。
参考:AI漫画“拍立得”上线:1句话1张照片,生成剧情完整连载
昆仑万维全新 AI 视频创作平台「SkyReels」正式上线
11 月 4 日,昆仑万维旗下 AI 视频创作平台「SkyReels」正式焕新上线,Web 端与移动端 APP 已全面登陆。模型侧,强势聚合「Google Veo 3.1」、「Sora 2」等全球顶尖 AI 多模态模型;功能侧,一站式提供图片生成、视频生成、数字人、音乐生成等多种 AI 创作方式。此次更新主要推出无限画布、数字人口播、模版功能、专家 Agent、视频延长和风格化等核心能力,自研「SkyReels V3」模型是业内首个支持单镜头多人多轮对话的数字人模型,推动 AI 视频创作迈向“零门槛创意生成时代”。
腾讯「ima」正式支持导入、导出「腾讯文档」
11 月 4 日,腾讯「ima」正式支持导入、导出「腾讯文档」 ,助力工作流再提速。在「ima」PC 端导入文件(含文档、表格、幻灯片、智能文档和 PDF 等品类)到知识库时,可以选择「腾讯文档」内容,进行提问和分析;对于「ima」的回答,支持一键导出为「腾讯文档」,进行再次编辑、协作及创作。两款应用打通后一站式完成内容导入、输出全流程,无需在应用间来回切换,效率翻倍提升工作学习体验。
腾讯云 CodeBuddy 成为国内首个支持「Skills」标准化接口的 AI 编程工具
11 月 6 日,腾讯云 CodeBuddy 宣布成为国内首个支持「Skills」标准化接口的 AI 编程工具。通过该接口,开发者可以为 AI 添加多样化技能(如智能处理 PDF、自动生成 PPT、全自动发小红书、全栈自动化开发等),AI 从单一指令执行者升级为能独立完成复杂任务的“智能代理”。「Skills」将不同领域专业知识,封装成独立可复用的技能模块,每个技能包是对应技能的 SOP,让 AI 读完就能高效、高质量执行;同时结合 MCP 协议实现外部工具联动,显著提升开发效率并降低上下文成本。
参考:国内首个!CodeBuddy支持Skills,给AI写SOP
AI Agent
OpenAI 发布了使用「GPT-5」寻找和修复安全漏洞的智能体「Aardvark」
10 月 31 日,OpenAI 发布了使用「GPT-5」寻找和修复安全漏洞的智能体「Aardvark」,其工作原理是监控代码库的提交与变更,在识别漏洞的同时分析其潜在利用方式,并自动提供修复建议。具体来说,它的工作流程从 Git 仓库出发,依次经历:威胁建模→漏洞发现→沙盒验证→Codex 修复→人工复审→提交 Pull Request。目前,「Aardvark」还处于 beta 测试阶段,但在标准代码库的基准测试中,已识别出了 92%的已知与人工注入漏洞,而且能定位仅在复杂条件下出现的问题。
参考:颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞
阿里云通义千问更新「AgentScope1.0」,增加两款开源 Agent
11 月 5 日,阿里云通义千问宣布「AgentScope1.0」更新,增加了两款基于 AgentScope 构建的开源智能体应用,分别是用于各种实际任务的「Alias-Agent」和用于数据处理的「Dat,a-Juicer Agent」。并扩展其核心能力,低代码适配 Trinity-RFT 框架进行 Agentic RL 训练,集成 ReMe 的长期记忆实现,同时上线「AgentScope-Samples」,构建“开箱即用型”智能体实现和全栈应用的集合。
技术突破
月之暗面推出创新性混合线性注意力架构「Kimi Linear」
10 月 31 日,月之暗面推出创新性混合线性注意力架构「Kimi Linear」,解决当前 LLMs 在处理长序列任务时面临的计算效率和性能瓶颈。该架构融合三份 Kimi Delta Attention(KDA)与一份全局 MLA,通过细粒度门控机制压缩记忆状态,在处理百万级 token 时 KV Cache 占用减少 75%,解码吞吐量最高提升 6 倍,TPOT 指标较传统 MLA 快 6.3 倍。
参考:刚刚!Kimi Linear横空出世,全新注意力架构:1M长文本解码速度飙升6.3倍,KV缓存砍掉75%
斯坦福大学及其合作团队提出了「AgentFlow」框架
11 月 3 日消息,近期斯坦福大学及其合作团队提出了「AgentFlow」框架,采用模块化架构,通过 4 个专门化智能体协同工作,配合专门设计的 Flow-GRPO 算法,使系统能够在真实交互环境中持续优化决策策略,使得小规模的 7B 参数模型在搜索、数学等多个推理任务中超越大模型「GPT-4o」(约 200B 参数),为 AI 系统的高效推理和持续学习提供了新思路。
Anthropic 发布「代码执行」新范式,效率提升 98.7%
11 月 5 日,Anthropic 发布新的 Agent 技术博客,详细阐述「代码执行」新范式,建立在模型上下文协议(MCP)之上,让模型编写代码调用工具而非直接调用,将 Token 消耗从 15 万降至 2000,效率提升 98.7%。新范式采用按需加载工具定义、数据本地流转设计,解决了工具定义过载和中间结果消耗两大 Agent 效率瓶颈。此外还带来“渐进式披露、上下文高效工具、强大控制流、隐私保护和状态持久化”五大核心优势。
参考:Anthropic又一篇Agent开发神文,新范式让Token消耗暴降98.7%
市场动态
OpenAI 与 AWS 官宣达成价值 380 亿美元为期 7 年的战略合作
11 月 4 日,OpenAI 与 AWS 官宣达成价值 380 亿美元为期 7 年的战略合作。OpenAI 将立即并持续获得 AWS 世界级的基础设施支持,以运行其先进的 AI 工作负载。AWS 将向 OpenAI 提供配备数十万颗芯片的 Amazon EC2 UltraServers(计算服务器),并具备将计算规模扩展至数千万个 CPU 的能力,以支持其先进的生成式 AI 任务。
参考:刚刚,OpenAI牵手亚马逊,7年380亿美元AI云计算大单到手
小鹏发布全新一代人形机器人「IRON」
11 月 5 日,小鹏发布全新一代人形机器人「IRON」,身高 1.78 米,体重 70 公斤,具备仿生骨骼、肌肉和柔性皮肤结构。它拥有 22 个自由度的灵巧手和 82 个全身自由度,能以“猫步”姿态自然行走,搭载 3 颗图灵 AI 芯片(2250TOPS 算力)和物理世界大模型,支持对话、交互等智能功能。
参考:小鹏机器人被质疑藏真人,何小鹏拍一镜到底视频,解开机器人衣服澄清:既高兴又哭笑不得,总有人不相信世界变化如此快
高德与小鹏达成合作,未来将共同提供「Robotaxi」服务
11 月 5 日,高德宣布与小鹏汽车达成合作,未来将共同面向全球提供「Robotaxi」服务,高德通过「TrafficVLM」模型实现“超视距”能力,可在几公里外感知突发事故并预判拥堵发展,提前推送预警信息。高德地图沉淀了数十万亿级时空样本,还构建了“时空信息建模+视觉感知监测+行业官方信息+用户分享与验证”的多渠道数据融合体系,成为「Robotaxi」行业的“空间智能基础设施”,降低行业创新门槛。
参考:高德拿下小鹏汽车







评论