写点什么

MIAOYUN | 每周 AI 新鲜事儿(10.17-10.24)

作者:MIAOYUN
  • 2025-10-27
    四川
  • 本文字数:4889 字

    阅读完需:约 16 分钟

MIAOYUN | 每周AI新鲜事儿(10.17-10.24)

本周 AI 领域动态频出,百度、阿里、DeepSeek 推出高效 OCR 与视觉语言模型,提升文档解析与多模态能力;腾讯、字节跳动分别开源世界模型与 3D 生成模型,推动 3D 内容生成;Anthropic、OpenAI、Google 升级 AI 工具,聚焦生命科学、浏览器集成与开发体验;华为鸿蒙 6、宇树机器人 H2 及多项评测基准发布,推动 AI 向终端与实体场景加速落地,一起来回顾本周发生的 AI 新鲜事儿吧!


AI 大模型


百度最新模型「PaddleOCR-VL」登顶 HuggingFace Trending


10 月 17 日,百度最新自研的多模态文档解析模型「PaddleOCR-VL」,以 0.9B 参数量,在全球权威榜单 OmniDocBench V1.5 中以 92.6 分夺得综合性能第一,横扫文本识别、公式识别、表格理解与阅读顺序四项 SOTA。该模型融合了 NaViT 动态分辨率视觉编码器与「ERNIE-4.5-0.3B」语言模型,实现了精度与效率双突破,能以极低计算开销精准识别文本、手写汉字、表格、公式、图表等复杂元素,支持 109 种语言。


参考:全球榜首!百度最新开源模型PaddleOCR-VL登顶HuggingFace Trending


灵感实验室团队联合 LMMs-Lab 提出「LLaVA-OneVision-1.5」


10 月 17 日,灵感实验室团队联合 LMMs-Lab 提出「LLaVA-OneVision-1.5」,继承并扩展 LLaVA 系列,旨在构建开放高效的训练体系,使开发者能低成本复现高性能视觉语言模型。该模型创新采用离线并行数据打包技术,实现 11 倍数据压缩比,仅用 3.7 天即完成 8500 万样本训练。搭载 RICE-ViT 视觉编码器,支持原生分辨率与区域级细粒度语义建模、强化图表/文档/结构化场景理解,通过“概念均衡”采样策略确保任务泛化能力,8B 参数版本在 27 项基准测试中全面超越「Qwen2.5-VL」。


参考:LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元


DeepSeek 团队开源新视觉语言模型「DeepSeek-OCR」


10 月 20 日,DeepSeek 团队开源了一款视觉语言模型「DeepSeek-OCR」,参数量为 3B,是通过光学二维映射技术压缩长文本上下文可行性的初步探索,仅需 100 个视觉 Token 即可解码 10 倍以上文本信息,在 OmniDocBench 基准测试中超越传统 OCR 模型。该模型主要由编码器(DeepEncoder)和解码器(DeepSeek3B-MoE-A570M)两大核心组件构成,支持动态分辨率输入和多语言处理。


参考:太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切


阿里通义实验室推出「Qwen3-VL」轻量级双模型


10 月 22 日,阿里通义实验室正式推出「Qwen3-VL」系列新成员,新增 2B 与 32B 两个参数规模的密集(Dense)型视觉语言模型,填补从移动端到云端的应用空白。其中,「Qwen3-VL-2B」专为端侧设备优化,在手机、平板等低算力环境中仍保持高效响应,适合本地化部署;而 32B 版本在长链推理、复杂图像理解方面表现卓越,具备“看图思考”能力,可精准解析图表、文档甚至 UI 界面内容。


参考:2B、32B!更适合开发者体质的Qwen3-VL来啦


科大讯飞开源星火科技文献大模型「Spark-Scilit-X1-13B」


10 月 22 日,科大讯飞星火科技文献大模型「Spark-Scilit-X1-13B」在 GitCode 和魔搭社区(ModelScope)上开源,助力科研智能化发展,为科研领域创新提供驱动力。该模型基于讯飞星火 X1-0720 大模型,在海量高质量科技文献数据上进行训练,采用多阶段训练技术,兼顾科研能力与通用性;并将长思维链深度思考和无思维链快思考进行结合训练,是支持快思考和慢思考的统一模型。


参考:科大讯飞星火科技文献大模型开源


腾讯混元世界模型 1.1 版本「WorldMirror」正式发布并开源


10 月 22 日,腾讯混元世界模型 1.1 版本「WorldMirror」正式发布并开源,首次同时支持多模态先验注入和多任务统一输出的端到端 3D 重建。该模型采用纯前馈架构实现秒级推理,处理 8-32 视图输入仅需 1 秒,单卡即可部署,在 SimplerEnv、CALVIN 等仿真器及真实物理世界任务中性能显著超越现有方法。


参考:混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成


百川智能发布了循证增强医疗大模型「Baichuan-M2 Plus」


10 月 22 日,百川智能发布了循证增强医疗大模型「Baichuan-M2 Plus」,同步升级配套应用百小应并开放 API。评测显示,该模型的医疗幻觉率较通用大模型显著降低,相比 DeepSeek 低约 3 倍,在美、日、英的医疗评测中均超过最火医疗产品 OpenEvidence,可信度接近资深临床专家。「Baichuan-M2 Plus」首创六源循证推理(EAR)范式,打造“医生版 ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛。


参考:百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”


字节跳动 Seed 团队推出 3D 生成大模型「Seed3D 1.0」


10 月 23 日,字节跳动 Seed 团队推出 3D 生成大模型「Seed3D 1.0」,实现从单张图像到高质量仿真级 3D 模型的端到端生成。该模型基于创新的 Diffusion Transformer 架构,通过大规模数据训练完成,可生成包括精细几何、真实纹理和基于物理渲染(PBR)材质的完整 3D 模型。


参考:Seed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA


AI 工具


生数科技 Vidu Q2「参考生」正式发布,APP 全新改版


10 月 21 日,生数科技 Vidu Q2「参考生」视频再次进化,聚焦于高一致性,速度更快,价格更优惠三大核心,致力于满足专业及半专业创作者日益增长的高想象力内容创作需求。此次升级 Vidu 首次上线了「视频延长」功能,最长可扩展至 5 分钟;生成速度更快,实现单任务推理速度相较 Vidu Q1「参考生」提升 3 倍。此外,Vidu APP 全新改版上线,用户只需把专业繁琐的提示词变为 @主体 +一句话描述,即可生成视频素材,还有海量主体库可供选择,人人都可二次创作。


参考:Vidu Q2 参考生重磅上线:新故事,由此开始


Anthropic 上线 Claude 生命科学版「Claude for Life Sciences」


10 月 21 日,Anthropic 上线 Claude 生命科学版「Claude for Life Sciences」,并推出一系列改进措施,旨在推动人工智能在生物技术领域的应用。该系统基于「Claude Sonnet 4.5」模型,集成了多种生命科学研究工具,如 Benchling、PubMed 和 BioRender,支持高效的科研流程。其新功能 Claude Skills 可将科学流程转化为 AI 自动化工作流,提升数据处理效率。此外,Anthropic 发布了覆盖多种科研场景的提示库,并与多家制药公司合作,显著缩短临床文档编制时间。


参考:刚刚,Anthropic 发布 Claude for Life Sciences,目标生物科研全流程


OpenAI 发布 AI 浏览器「ChatGPT Atlas」


10 月 22 日,OpenAI 发布 AI 浏览器「ChatGPT Atlas」,基于 Chromium 内核,目前仅推出 macOS 版,对所有用户免费开放,后续将推出 Windows 及移动端版本。「ChatGPT Atlas」核心功能是将 ChatGPT 深度集成到浏览器,可查看用户页面内容并通过侧边栏回答问题,配备浏览器记忆(Browser memories)功能和智能体模式(Agent Mode),可执行订票、购物等复杂任务。此外,OpenAI 强调安全措施包括禁止运行代码、访问敏感网站时暂停确认等,但承认智能体仍存在被恶意指令误导的风险。


参考:刚刚,OpenAI发布AI浏览器ChatGPT Atlas,基于Chromium


Anthropic 正式发布了「Claude Desktop」,随时随地召唤 Claude


10 月 22 日,Anthropic 正式发布了桌面版「Claude Desktop」(之前是预览版),主打“随时随地召唤 Claude”,同时支持 Mac 和 Windows 系统。该桌面版提供全局快捷键(Mac 双击 Option 随时唤醒)、窗口分享、语音输入(按 Caps Lock 说话)和连接工具(代码编辑器、本地文件和数据库)四大核心功能。与 OpenAI 的「Atlas」浏览器不同,「Claude Desktop」是常规桌面助手而非具备 Agent Mode 的浏览器,但操作顺手且实用性强。


参考:Claude 桌面版,正式发布


Google 推出 AI Studio 全新「Vibe Coding」功能与 AI 学习平台「Google Skills」


10 月 22 日,Google 全面升级 AI Studio 平台,推出了全新的「Vibe Coding」功能,可以一键生成 AI 应用。新界面集成模块化“超级能力”组件,用户只需点击即可添加媒体编辑、深度推理、加速响应等功能。平台新增应用程序库,未来或将开放社区共享机制。秘密变量支持保障敏感信息存储安全,一键部署直达 Google Cloud 运行环境,生成实时访问链接。此外,Google 还推出了 AI 学习平台「Google Skills」,有超过 3000 门课程,整合了 Google Cloud、DeepMind、Google for Education 等资源,涵盖 AI 技术与伦理等内容,帮助人们提高 AI 技能。


参考:谷歌AI Studio大更新:推出全新“vibe编程体验”,一键生成AI应用,好用到爆


快手 StreamLake 正式推出「工具+模型+平台」三位一体 AI 编程产品矩阵


10 月 23 日,快手 StreamLake 正式推出「工具+模型+平台」三位一体 AI 编程产品矩阵,包括智能开发工具「CodeFlicker」、高性能自研模型「KAT-Coder」以及大模型平台快手万擎「Vanchin」,致力于为企业和开发者构建一个闭环、高效、普惠的 AI 编程新生态。其中「KAT-Coder-Air V1」版本将面向所有用户免费使用。


参考:快手StreamLake启动AI智能开发新生态,“三位一体”产品矩阵正式亮相


技术突破


美团 LongCat 团队发布了「VitaBench」评测基准


10 月 20 日,美团 LongCat 团队发布了「VitaBench」评测基准,针对大模型智能体在真实生活场景中的复杂任务能力进行系统评估。该基准以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含 66 个工具的交互式评测环境,并设计了跨场景综合任务。该基准首次从推理、工具调用与用户交互三大维度量化任务复杂度;实验显示,当前领先模型在跨场景主榜任务中成功率仅 30%,暴露智能体应对真实场景的短板。


参考:AI点外卖哪家强,美团LongCat团队做了个全面评测


华为发布「HarmonyOS 6」系统,支持与 Mac、iPhone 互传互联


10 月 22 日,华为发布了最新的「HarmonyOS 6」系统,支持与 Mac、iPhone 互传互联,系统速度进一步提升,相较于「HarmonyOS 5」流畅度提升 15%,续航也提升 35-51 分钟;应用启动速度提升 11%,页面加载提升 21%,内容加载提升 30%,并且提供更细腻的过场动画。同时,小艺助手升级为系统级 AI 智能体(Agent),支持语音触发多条件任务自动执行(如网购、订票)、AI 一键成片、方言自由对话(支持 16 种方言)、录音转写摘要、备忘录速记等,实现能听、能答、会思考,首发拥有 80 多个应用智能体。


参考:HarmonyOS 6,超级666666


Google 全新的量子回声「Quantum Echoes 」算法首次可验证


当地时间 10 月 22 日,Google 在《Nature》杂志披露其全新的量子回声「Quantum Echoes 」算法在 Willow 芯片上运行,解决原子相互作用问题的速度比最好的传统超级计算机快 13000 倍,在数小时内完成了需要 Frontier 超级计算机大约 3.2 年才能完成的计算。这是历史上首次证明量子计算机可在硬件上成功运行一项可验证算法,这一研究成果被视为推动量子计算机走向应用的又一个里程碑。


参考:刚刚,谷歌重大突破!量子计算首次可验证,登《Nature》封面


LangChain 团队正式发布「LangChain 1.0」与「LangGraph 1.0」


10 月 23 日,LangChain 团队正式发布「LangChain 1.0」与「LangGraph 1.0」,这是这两大框架的首个主要版本,标志着 AI Agent 开发正式进入“工程化”阶段。同步上线的,还有全新设计的文档站点,首次将 Python 与 JavaScript 文档完全整合。


参考:LangChain 与 LangGraph 双双发布 1.0:AI 智能体框架迎来里程碑时刻!


市场动态


微软宣布 OpenAI 的视频生成模型「Sora 2」上线 Azure AI Foundry 国际版


10 月 17 日,微软正式宣布 OpenAI 的视频生成模型「Sora 2」已在 Azure AI Foundry 国际版上线,并开放 API 接口。「Sora 2」支持文本、图像、视频等多种输入方式,可直接生成高质量视频内容,适用于广告制作、教育素材、社交媒体内容生产等多个领域,极大简化传统拍摄与剪辑流程。定价方面采取按秒收费模式,每秒 0.1 美元。


参考:https://mp.weixin.qq.com/s/AOLhwBETxhBxTcejsn3XZg


宇树科技发布「H2」仿生人形机器人,高 180cm,重 70kg


10 月 20 日,宇树科技发布「H2」仿生人形机器人,高 180cm,重 70kg。和前代相比,「H2」无论是在运动流畅性、还是仿生特征上,都有了相当大的升级。首先重量上,「H2」的重量从「H1」的 41kg 突破到了 70kg,更趋近正常水平;其次关节总数累计达到了 31 个,对比 7 月份发布的「R1」关节 26 个提升约 19%;最后赋予了「H2」“人脸”,更接近人类。70kg 的重量没有让「H2」变得更笨重,反而在完成各类动作上更加流畅,移动能力以及关节控制都更像人类的行动,能优雅流畅的表演芭蕾舞蹈和中国武术。


参考:刚刚,宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫,撞脸经典科幻片

用户头像

MIAOYUN

关注

MIAOYUN,助力企业一秒入云,一键智维! 2018-11-08 加入

成都元来云志科技有限公司,简称“MIAOYUN”,成立于2019年,总部位于成都,在西安和上海设有研发中心和营销中心。成立以来,MIAOYUN坚持创新自研,致力于帮助客户一站式解决云原生系统复杂管运问题。

评论

发布
暂无评论
MIAOYUN | 每周AI新鲜事儿(10.17-10.24)_AI_MIAOYUN_InfoQ写作社区