写点什么

MIAOYUN | 每周 AI 新鲜事儿(07.18-07.25)

作者:MIAOYUN
  • 2025-07-28
    四川
  • 本文字数:4240 字

    阅读完需:约 14 分钟

MIAOYUN | 每周AI新鲜事儿(07.18-07.25)

紧跟 AI 发展浪潮,洞察行业未来,MIAOYUN「每周 AI 新鲜事儿」,为您精选全球 AI 领域的最新动态,涵盖 AI 新模型发布、AI 产品及工具、技术突破、市场动态等,助您走在智能时代前沿,一起来回顾本周发生的 AI 新鲜事儿吧!


AI 开源模型


字节跳动发布通用机器人模型「GR-3」


7 月 22 日,字节跳动 Seed 团队提出的全新 Vision-Language-Action Model(VLA)模型「GR-3」,具备泛化到新物体和新环境的能力,能理解包含抽象概念的语言指令,还能够精细地操作柔性物体。同时,字节跳动 Seed 团队还开发了一款具备高灵活性、高可靠性的通用双臂移动机器人「ByteMini」,相当于是专为「GR-3」 这颗“大脑”打造的“灵活躯体”。


参考:Seed Research│通用机器人模型GR-3发布!支持高泛化、长程任务、柔性物体双臂操作


Google 发布「Gemini 2.5 Flash-Lite」稳定版


7 月 22 日,Google Deepmind 正式推出「Gemini 2.5 Flash-Lite」稳定版,定位为“速度最快、性价比最高”的 AI 模型。该模型支持 100 万 token 上下文,每百万输入 token 仅 0.10 美元,输出为 0.40 美元,音频输入价格相比预览版降了 40%,平衡速度与成本。其性能优于 Gemini 2.0,在编码、数学、推理、多模态理解等方面均有明显提升,并支持 Google 搜索、代码执行及 URL 上下文解析等功能。  


参考:Gemini 2.5 Flash-Lite外网传疯了,推理速度10倍于DeepseekR1


阿里云通义千问正式发布「Qwen3-Coder」


7 月 23 日,阿里云通义千问正式发布了「Qwen3-Coder」,是迄今为止最具代理能力的代码模型。「Qwen3-Coder」拥有多个尺寸,当前最强大的开源版本「Qwen3-Coder-480B-A35B-Instruct」,是一个 MoE 模型,拥有 480B 参数,激活 35B 参数,原生支持 256K token 的上下文,并可通过 YaRN 扩展到 1M token。「Qwen3-Coder」拥有卓越的代码和 Agent 能力,在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 上取得了开源模型的 SOTA 效果。


参考:我更强了!


昆仑万维发布最新音乐模型「Mureka V7」及「Mureka TTS V1」


7 月 23 日,昆仑万维发布最新音乐模型「Mureka V7」,以及全新的音频模型「Mureka TTS V1」。「Mureka V7」支持歌词输入生成完整音乐作品,采用 MusiCoT 技术,提升旋律动机与编曲质量,增强人声与乐器的真实感,实现更连贯、艺术性更强的创作体验。同时,「Mureka TTS V1」支持 Voice Design 音色设计能力,通过文本输入即可生成定制音色,覆盖真实人物、虚拟角色等多场景应用,语音质量达 4.6 分。


参考:AI淘汰歌手又近一步,昆仑万维正式上线Mureka V7


字节跳动 Seed 团队正式发布端到端同声传译模型「Seed LiveInterpret 2.0」


7 月 24 日,字节跳动 Seed 团队正式发布端到端同声传译模型「Seed LiveInterpret 2.0」,是首个延迟 &准确率接近人类水平的产品级中英语音同传系统。模型接近真人同传的翻译准确率,准确率在复杂场景中超 70%;极低延迟的 “边听边说” 能力,翻译延迟仅 2-3 秒,较传统系统降低超 60%;支持零样本声音复刻,能实时提取说话人音色特质,智能平衡翻译质量、延迟和语音输出节奏。


参考:Seed 端到端同声传译大模型发布:准确率接近真人,3s 延迟,实时声音复刻


李沐团队开源语音大模型「Higgs Audio V2」


7 月 24 日,李沐团队在 B 站推出了手把手教学的语音大模型「Higgs Audio V2」,模型基于 1000 万小时的音频数据训练,支持文本理解并生成自然的语音对话。该模型具备多种创新能力,如多人对话生成、自动韵律调整、零样本语音克隆、歌声合成和实时语音交互能力等,并在 EmergentTTS-Eval 等评测中表现领先。该模型核心技术创新包括自动化标注系统、统一的音频分词器 Higgs Audio Tokenizer 和 DualFFN 架构。


参考:李沐团队开源语音大模型:Higgs Audio V2!1000万小时数据炼成能听会说神器!


AI 工具


字节跳动 AI 编程助手「TRAE」发布 2.0 版本,新增「SOLO」模式


7 月 21 日,字节跳动的 AI 编程助手「TRAE」正式发布 2.0 版本,并新增了核心功能「SOLO」模式。「TRAE SOLO」是行业首个 Context Engineer(上下文工程师),它不止协助编码,更能基于精准上下文理解和工具调用,从构思、规划、开发到上线,端到端交付完整功能。


参考:全新 SOLO 模式,一图读懂


开源语言学习工具「WordPecker」发布


7 月 21 日消息,近期开源语言学习工具「WordPecker」正式发布,这是一款基于 LLM 和 TTS 技术的开源语言学习应用,支持从任意内容提取词汇创建个性化列表,通过语音 Agent 实现沉浸式实时对话练习,提供多样化学习模式,支持 100 多种语言,以高度个性化和开源特性提升学习效率与趣味性。


参考:未来的学习和学习的未来——致AI LLM


腾讯云发布首个产设研一体的 AI 全栈工程师「CodeBuddy AI IDE」


7 月 22 日,腾讯云推出下一代 AI 全栈工程师「CodeBuddy AI IDE」,是全球首位贯通“产品-设计-研发”的一体化 AI 工具。该产品支持自然语言输入需求,就能自动完成从产品构想、设计原型到上线部署的全流程开发;还支持上传手绘稿智能识别还原设计稿,自动生成代码。「CodeBuddy AI IDE」集成了最强大的模型能力:国际版整合 Claude、GPT、Gemini 等主流大模型;国内版则支持腾讯混元、DeepSeek 等国产模型,适用于不同开发场景。


参考:全球首位产设研一体AI全栈工程师,在腾讯「出道」!


官方揭秘「ChatGPT Agent」原理:通过强化学习让模型自主探索最佳工具组合


7 月 23 日消息,OpenAI 开发团队在和投资方红杉资本的圆桌谈话中,首次详细解析了「ChatGPT Agent」功能背后的原理。「ChatGPT Agent」由 Deep Research(基于文本的研究智能体)、Operator(基于 CUI/操作的计算机智能体)、其他工具(终端、图像生成等)组成,通过共享状态实现整合。OpenAI 采用强化学习方法训练 Agent,将所有工具集成至虚拟机,让模型自主探索最佳工具组合,无需预先指定使用规则,能流畅切换工具。


参考:官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合


AI Agent


零一万物发布「万智企业大模型平台 2.0 版本」并推出企业级 Agent 智能体「万仔」


7 月 22 日,零一万物创始人兼 CEO 李开复博士宣布,升级发布「万智企业大模型一站式平台 2.0 版本」,并推出零一万物企业级 Agent 智能体「万仔」。作为万智平台的核心功能模块,「万仔」以“超级员工”为核心定位,具备深度思考和任务规划能力,基于安全沙盒与 MCP,能够访问手机和 Web 端,连接各类企业服务。同时,零一万物万智平台还提供开发工具与配置平台,企业可以随时随地基于自身业务场景,定制最懂客户需求、解决真实问题的“超级员工”。


参考:零一万物“超级员工”登场,企业级Agent迈入“价值交付”时代 |FM 01.AI


京东开源首个完整的多智能体系统「JoyAgent-JDGenie」


7 月 24 日消息,京东团队倾力打造并开源了一款产品级的端到端通用多智能体「JoyAgent-JDGenie」,是首个开源的、完整的多智能体系统,专为实际应用场景设计。该系统在权威 GAIA 基准测试中以 75.15%的准确率位居行业前列,具备多层级协作、多模态处理、记忆优化等特性,支持开箱即用及功能扩展。


参考:京东开源“核弹级”多智能体!GAIA 75.15%准确率超越业界知名产品!


技术突破


Meta 开源创新大模型架构「AU-Nets」,革新文本处理方式


7 月 23 日消息,近期 Meta 的研究人员开源了创新架构「AU-Nets」,通过引入一种自回归的「U-Net」结构,彻底改变了传统语言模型的分词和处理模式。「AU-Nets」能够直接从原始字节开始学习,动态地将字节组合成单词、词对,甚至多达四个单词的组合,实现多层次的文本表示。


参考:Meta开源创新大模型架构AU-Nets


AI 音效生成技术新突破!「FreeAudio」实现精确时间控制与 90 秒长时音频生成


7 月 23 日信息,近期清华大学与生数科技联合研发的「FreeAudio」系统,实现了长达 90 秒的音频生成(打破 10 秒限制),具备精准的时间控制能力,无需额外训练。用户可以根据自然语言指令指定不同音效的时间段,如狼嚎声、蟋蟀鸣叫。实验显示,「FreeAudio」在时间对齐精度和音频质量上表现显著优于以往的免训练方法,且在多个指标上取得了最佳或次优成绩。此外,该系统有效降低了计算开销,具备良好的扩展性与稳定性,将推动音效制作技术的发展。目前已被 ACM Multimedia 2025 录用,并被 AC 推荐为 Oral 录取。


参考:AI音效90秒长时可控生成!“狼嚎2秒,蟋蟀鸣8秒”精准搞定!清华&生数科技新研究入选ACM MM 2025


首个统一的图像/视频自适应语义分割框架「QuadMix」刷榜多项基准


7 月 23 日消息,近期由东北大学、武汉大学等研究人员联合提出了一种统一处理图像与视频的无监督领域自适应语义分割「UDA-SS」框架,首次实现了图像与视频任务的融合处理,打破了以往两者割裂的研究格局。该框架名为「QuadMix」,通过四向混合机制和光流引导的时空聚合模块,有效缩小源域与目标域之间的差异,提升了模型在不同场景下的泛化能力,刷新多项基准记录。


参考:首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准


AI 市场动态


黄仁勋央视专访:中国供应链与市场、科技企业与创新


7 月 20 日,央视播出了 NVIDIA 创始人兼 CEO 黄仁勋在《面对面》栏目专访录像,黄仁勋深度分享了自己对中国供应链、市场、科技企业、科技创新的看法,并重申了 NVIDIA 对中国的长期承诺。他强调全球供应链无法彻底脱钩,中国供应链规模和技术含量堪称世界级奇迹,在当今动荡环境中世界比以往更需要中国供应链专业能力;中国创新的步伐是不可能被阻挡的,同时表示敬佩华为的技术能力,乐观认为中美能找到竞争与合作共存的方式。


参考:黄仁勋40分钟央视专访:拼命工作33年,总感觉要倒闭,自学中文,中国创新挡不住


100 万卡 VS 5000 万卡,硅谷巨头算力军备竞赛白热化


7 月 21 日消息,OpenAI 首席执行官 Sam Altman 在 Twitter 上预告,OpenAI 计划年底前上线超过 100 万张 GPU,对标马斯克 xAI 五年内部署 5000 张 H100 GPU 的等效算力目标,算力军备竞赛白热化。OpenAI 通过自研芯片、星门计划和微软合作三条路径追求算力自主,The Information 援引投资人会议的消息称,OpenAI 计划到 2030 年,将 75%算力来源转移至星门项目。


参考:芯片战争来了!100万卡 vs 5000万卡,奥特曼、马斯克“神仙打架”


美国白宫发布「AI 行动计划」


当地时间 7 月 23 日,美国特朗普政府发布了「AI 行动计划」,旨在通过放宽监管和扩大数据中心能源供应等措施,加速美国人工智能的发展。该计划围绕加速 AI 创新、建设 AI 基础设施以及引领国际 AI 外交与安全的三大支柱展开。主要政策包括:推动美国全栈人工智能技术出口;优化审批程序,加速数据中心基础设施建设;在联邦和各州层面,消除阻碍人工智能创新和采用的监管法规;鼓励发展开源人工智能模型;维护前沿模型的言论自由,禁止对其施加意识形态偏见。


参考:美国发布AI行动计划(附全文)

用户头像

MIAOYUN

关注

MIAOYUN,助力企业一秒入云,一键智维! 2018-11-08 加入

成都元来云志科技有限公司,简称“MIAOYUN”,成立于2019年,总部位于成都,在西安和上海设有研发中心和营销中心。成立以来,MIAOYUN坚持创新自研,致力于帮助客户一站式解决云原生系统复杂管运问题。

评论

发布
暂无评论
MIAOYUN | 每周AI新鲜事儿(07.18-07.25)_云计算_MIAOYUN_InfoQ写作社区