写点什么

MIAOYUN | 每周 AI 新鲜事儿(08.22-08.29)

作者:MIAOYUN
  • 2025-09-01
    四川
  • 本文字数:5069 字

    阅读完需:约 17 分钟

MIAOYUN | 每周AI新鲜事儿(08.22-08.29)

近期全球 AI 领域进展密集,Google、NVIDIA、xAI、Kimi、苹果、微软、阿里、腾讯、OpenBMB 等企业推出新一代大模型,Qoder、Zulu-CLI、DingTalkA1 等多款 AI 工具也相继亮相,在语音、视频、编程与智能体等方面实现显著突破。政策层面,国务院推出“人工智能+”行动提供系统支持;市场方面,中国 AI 应用在全球迅速崛起,多款产品跻身全球 Top100 消费级榜单;一起来回顾本周发生的 AI 新鲜事儿吧!


AI 大模型


钉钉、通义实验室语音团队联合推出新一代语音识别大模型「Fun-ASR」


8 月 22 日,钉钉、通义实验室语音团队联合宣布推出新一代语音识别大模型「Fun-ASR」,能准确转写各种语音信号,具备识别多行业术语、不同语言与口音的能力,也能结合上下文信息实现更精准的转录,在家装、保险等行业识别准确率提升超 15%(保险 18%、家装/畜牧 15%-20%),并支持企业专属模型定制训练。


参考:钉钉联手通义推出Fun-ASR语音识别大模型,可听懂家居、畜牧等十大行业黑话


月之暗面宣布推出其最新大模型「Kimi-k2-turbo-preview」


8 月 22 日,月之暗面宣布推出其最新大模型「Kimi-k2-turbo-preview」,模型输出速度已经提升至每秒 60 Tokens,最高可达每秒 100 Tokens。该模型与「KimiK2」参数一致,基于 MoE 架构(总参数 1T、激活 32B),在代码生成、智能体调度、数学推理表现出色,目前仍然享受 5 折特惠价格,每百万 Tokens 输入价格(缓存命中)仅需 2.00 元,缓存未命中为 8.00 元,输出价格为 32.00 元,9 月 1 日恢复原价。


参考:Kimi K2 又又又提速了!


快手可灵 AI 发布全新 2.1 模型,新增「首尾帧功能」


8 月 22 日,快手旗下可灵 AI 发布全新 2.1 模型,新增「首尾帧功能」,该功能通过端到端多模态语义推理能力的升级,显著提升首尾帧功能视频生成效果;据评测数据显示,与此前 1.6 版本相比效果提升 235%。该功能还能打造超燃视觉特效,在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现尤为突出。    


参考:很强,但不完美,实测可灵2.1“首尾帧”功能


马斯克 xAI 开源大模型「Grok 2.5」,6 个月后开源「Grok 3」


8 月 23 日,马斯克旗下 AI 公司 xAI 宣布开源其大模型「Grok 2.5」,并计划 6 个月后开源「Grok 3」。用户可通过 HuggingFace 下载 42 个文件,大小约 500GB,需 8 块 40GB 显存 GPU 配合 SGLang 引擎运行。在前一天,马斯克还表示,成立一家名为 Macrohard(意为“巨硬”)的新公司,利用 AI 的力量来对抗微软的软件业务。


参考:刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手


苹果开源长视频多模态大模型「SlowFast-LLaVA-1.5」


8 月 25 日消息,苹果机器学习研究团队近日开源长视频多模态大模型「SlowFast-LLaVA-1.5」,在 1B、3B、7B 参数规模下均刷新 LongVideoBench、MLVU 等权威基准测试纪录。该模型通过创新的双流机制(“慢流”与“快流”)和精简的训练框架,实现了高分辨率场景细节与运动变化的有效捕捉,显著降低计算与显存需求。测试显示,即使 1B 版本也超越竞品,且在知识问答、数学推理、OCR 等图像任务中表现优异,实现视频与图像通用理解。


参考:视频大模型创新SlowFast-LLaVA-1.5高效解读长时视频


微软研究院开源创新音频模型「VibeVoice-1.5B」


8 月 26 日,微软研究院开源创新音频模型「VibeVoice-1.5B」,不仅一次性连续合成 90 分钟超长逼真语音(此前行业极限仅 60 分钟),更支持 4 人自然对话、3200 倍音频压缩,压缩效率是主流 Encodec 模型的 80 倍。「VibeVoice-1.5B」通过首创双 tokenizer(声学和语义)协同架构,成功解决传统 TTS(文本转语音)音色与语义不匹配难题。


参考:语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率


Google DeepMind 发布新一代图像生成与编辑模型「Gemini 2.5 Flash Image」


8 月 26 日,Google DeepMind 发布新一代图像生成与编辑模型「Gemini 2.5 Flash Image」(代号“Nano Banana”),并将其整合进 Gemini 应用的原生图像编辑功能,凭借“角色一致性、基于提示的精准图像编辑、原生世界知识和多图像融合”四大超强能力,被网友称为「最强图像模型」。该模型不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,甚至将二维地图转化为三维景观。凭借 Gemini 的世界知识与交错生成技术,模型实现了“有记忆”的多轮创作,带来极高一致性与创造力。该模型现已通过 Gemini API、Google AI Studio 和 Vertex AI 提供预览,预计数周内推出稳定版本。

参考:谷歌「最强图像模型」横扫一切!3毛钱P图打懵OpenAI,PS要不存在了


OpenBMB 开源 8B 参数的面壁小钢炮「MiniCPM-V 4.5」多模态旗舰模型


8 月 26 日,OpenBMB 团队开源 8B 参数的面壁小钢炮「MiniCPM-V 4.5」多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,兼顾性能与效率;高刷视频理解、图片理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过「Qwen2.5-VL 72B」达到越级领先;端侧友好,支持长思考、短思考可控混合推理,性能好、速度快。


参考:多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快


阿里通义万相发布新一代音频驱动的视频生成模型「Wan2.2-S2V」


8 月 26 日,阿里通义万相发布新一代音频驱动的视频生成模型「Wan2.2-S2V」,仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑电影级数字人视频。模型生成视频时长可达分钟级,可大幅提升数字人直播、影视制作、AI 教育等行业的视频创作效率。


参考:重磅开源!通义万相最新模型来了


NVIDIA 发布全新混合架构语言模型系列「Jet-Nemotron」


8 月 26 日,NVIDIA 发布了一个全新的混合架构语言模型系列「Jet-Nemotron」,包含 2B、4B 参数版本。该模型提出后神经架构搜索(PostNAS)与新型线性注意力模块(JetBlock),实现从预训练 Transformer 出发的高效架构优化。相比「Qwen3」、「Gemma3」、「Llama3.2」等模型,「Jet-Nemotron」在数学、代码、常识、检索和长上下文等维度上准确率更高,同时在 H100 GPU 上推理吞吐量最高提升至 53 倍。


参考:刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2


腾讯混元开源端到端视频音效生成模型「HunyuanVideo-Foley」


8 月 28 日,腾讯混元发布并开源端到端视频音效生成模型「HunyuanVideo-Foley」,只需输入视频和文字,就能为视频匹配电影级音效。模型采用创新的双流多模态扩散变换器(MMDiT)架构和引入表征对齐(REPA)损失函数,实现多模态语义均衡响应,既能理解视频画面又能结合文字描述生成复合音效,提升音频生成质量和稳定性。该模型在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的 SOTA 水平


参考:混元开源又+1:视频音效可以自动生成了


AI 工具


阿里发布新一代 Agentic 编程平台「Qoder」,编程效率提升 10 倍以上


8 月 22 日,阿里发布新一代 Agentic 编程平台「Qoder」,集成全球顶尖编程模型,具备超强的上下文工程能力和自主编程能力,开发效率提升显著,实测数据显示其代码生成准确率领先行业标杆产品 13%。「Qoder」支持多种开发模式,包括 Ask Mode(问答模式)和 Agent Mode(智能体模式),及全新推出的 Quest Mode(AI 自主编程),可让复杂任务的开发效率提升 10 倍以上。


参考:新一代Agentic Coding平台Qoder来了!


钉钉发布「钉钉 ONE」和首款 AI 硬件「DingTalkA1」等超 10 款 AI 产品


8 月 25 日,钉钉在十周年发布会上,推出「8.0 版本」并同步发布 AI 办公新形态「钉钉 ONE」和首款 AI 硬件「DingTalkA1」等超过 10 款 AI 产品。「钉钉 ONE」是人与 AI 对话统一入口,打造全球首个 Agent 驱动工作信息流,让工作处理如刷短视频般流畅,简化复杂流程、大幅提升信息处理效率。「DingTalkA1」厚 3.8mm,支持磁吸固定于手机后壳,搭载 6 麦克风阵列与骨传导技术,实现 8 米收音,提供 1 万分钟免费转写(准确率 97%),内置 36 个 Agent 模板,可分析通话助力销售。


参考:钉钉发布下一代办公应用形态 重构AI时代的工作方式


上海人工智能实验室推出首个大模型数据价值评估开放平台「OpenDataArena」


8 月 25 日,上海人工智能实验室推出首个大模型数据竞技场「OpenDataArena」,一个公平、公开、透明的 SFT 后训练数据价值评测平台,通过多维度评分和训练评测工具,帮助研究者更有效地筛选高质量数据集,优化数据生成过程,并深入洞察数据特征与模型效果之间的关系。该平台已覆盖 4+领域,进行超过 20 个基准测试,评估超过 100 个数据集,总样本数超过 2000 万,并完成 600 多次模型训练。


参考:告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena


文心快码新增「Zulu-CLI」终端编码功能,开发者效率再升级


8 月 26 日,文心快码升级更新多项功能,包括「Zulu-CLI」、企业版支持自定义模型、一键设置自动执行、复用相同终端、本地代码库知识增强索引支持 SVN 仓库、支持对话中导出生成的图片等。其中「Zulu-CLI」终端编码能力的引入备受开发者关注,该功能允许用户在不离开命令行界面的前提下,通过自然语言指令完成编码任务,极大提升开发效率。


参考:新增Zulu-CLI、企业版对话支持自定义模型、一键设置自动执行、复用相同终端,8月新能力速览!


技术突破


阿里推出「Mobile-Agent-v3」智能体框架,开创 GUI 自动化新纪元


8 月 22 日,阿里通义实验室发布跨平台多代理框架「Mobile-Agent-v3」,基于「GUI-Owl」(端到端多模态 GUI 代理基础模型)构建,具备行业领先的规划、进度管理、反思和记忆能力,全面提升用户的 GUI 自动化体验。作为该框架的基础模型,「GUI-Owl」融合感知、推理、规划、执行等综合能力多项功能,展现出强大的端到端多模态代理能力。


参考:最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


NVIDIA 推出新型「NVFP4」量化格式,大模型训练根本性转变


8 月 26 日,NVIDIA 推出新型「NVFP4」量化格式,能以 4-Bit 的速度与效率,实现 16-Bit 的生产件级训练精度,标志着大语言模型(LLM)开发的重大飞跃,这并非一次简单的渐进式改进,而是一次对大规模模型训练方式的根本性变革。研究显示,使用「NVFP4」的 120 亿参数模型在万亿级令牌数据集上表现稳定,验证损失曲线与 FP8 精度模型高度一致,确保了训练的准确性和有效性。此外,「NVFP4」在推理和训练阶段都能显著提高吞吐量。


参考:DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜


字节跳动推出智能体安全框架「Jeddak AgentArmor」, 护航 AI Agent 安全


8 月 27 日,字节跳动安全研究团队提出了全新的智能体安全框架「Jeddak AgentArmor」,将 AI Agent 运行时的行为轨迹,视为一段可分析、可验证的结构化程序。「AgentArmor」囊括了信任、安全、规则三大类型(跨域互操作的信任建立、对外部攻击的健壮抵御、对用户指令的忠实执行),是 AI Agent 实现大规模应用的前提。


参考:为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架


百度智能云「百舸 AI 计算平台 5.0」和「千帆 4.0」上线,突破算力瓶颈    


8 月 28 日,百度智能云在 2025 云智大会上宣布推出「百舸 AI 计算平台 5.0」版本,从“网络、算力、推理系统、训推一体”四个方面全面提升 AI 计算效率。新版本引入昆仑芯超节点技术,显著提升万亿参数模型运行效率,同时优化推理吞吐量与延迟,为企业和开发者提供更高效的 AI 训练与推理能力。同时发布企业级 AI 开发平台「千帆 4.0」,为开发者提供 Agent 开发所需要的模型、Agent 编排、数据和企业级能力,推动 AI 基础设施全面升级。


参考:新一代AI云基础设施,全面升级!


行业动态


国务院印发《关于深入实施“人工智能+”行动的意见》


8 月 26 日,国务院印发《关于深入实施“人工智能+”行动的意见》,坚持以习近平新时代中国特色社会主义思想为指导,提出加快实施 6 大重点行动(“人工智能+”科学技术、“人工智能+”产业发展、“人工智能+”消费提质、“人工智能+”民生福祉、“人工智能+”治理能力、“人工智能+”全球合作),强化 8 项基础支撑能力(提升模型基础能力、加强数据供给创新、强化智能算力统筹、优化应用发展环境、促进开源生态繁荣、加强人才队伍建设、强化政策法规保障、提升安全能力水平),组织实施要求坚持把党的领导贯彻到“人工智能+”行动全过程。


参考:国务院关于深入实施“人工智能+”行动的意见


a16z 发布「全球 Top100 消费级 GenAI 应用榜单」,中国多款产品跻身前 20 强


8 月 28 日,知名风投机构 a16z(Andreessen Horowitz)发布第五期「全球 Top100 消费级 GenAI 应用榜单」,覆盖热门的 AI 网站与移动应用,按照流量和用户活跃度进行排名。榜单显示,AI 竞争格局逐渐稳定,中国力量全面崛起,DeepSeek、夸克、豆包、Kimi、Qwen3 等多款产品跻身前 20 强。ChatGPT 稳居榜首,谷歌 Gemini 紧随其后,Grok 高速逆袭。整体来看,全球 AI 正进入多极化竞争的新阶段。


参考:刚刚,全球AI百强榜发布!ChatGPT稳坐第一,DeepSeek第三,前50有22个来自中国

用户头像

MIAOYUN

关注

MIAOYUN,助力企业一秒入云,一键智维! 2018-11-08 加入

成都元来云志科技有限公司,简称“MIAOYUN”,成立于2019年,总部位于成都,在西安和上海设有研发中心和营销中心。成立以来,MIAOYUN坚持创新自研,致力于帮助客户一站式解决云原生系统复杂管运问题。

评论

发布
暂无评论
MIAOYUN | 每周AI新鲜事儿(08.22-08.29)_人工智能_MIAOYUN_InfoQ写作社区