机器人争议之外,小鹏埋了一条物理 AI 的暗线
最近,小鹏科技日可以说是近期最富有争议的科技发布会之一。那个被质疑为“真人伪装”的具身智能机器人 IRON,以近乎拟真的步态和柔性皮肤引爆舆论。有人惊叹技术突破,更多人怀疑视频剪辑、调侃“幕后是不是藏了个真人”。这场真假之争迅速吞噬了公众注意力,也让小鹏被贴上过度营销、吸引流量的标签。
但机器人之后,小鹏发布会还有很多看点。
更准确地说,IRON 只是整场发布会最抢眼的部分。真正值得行业关注的是小鹏试图构建的一套名为“物理 AI”的底层架构。这套架构包含第二代 VLA、Robotaxi、飞行汽车等技术突破,试图回答一个根本问题:如何让机器在真实世界中像人类一样,通过感知、理解与行动,自主应对复杂、动态、非结构化的环境?
我们一起来看看,小鹏宣传的物理 AI 有哪些特点?而被机器人争议遮蔽的发布会之后,还有哪些技术干货?
Robotaxi 和飞行汽车:小鹏的硬思考
在 2025 年小鹏科技日的叙事中,人形机器人 IRON 固然吸睛,但真正构成小鹏“物理 AI”战略落地试金石的却是另外两条更具现实挑战性的产品线——Robotaxi 与飞行汽车。
它们不仅是技术展示的窗口,更是小鹏能否将“涌现”理念从实验室推向真实世界的硬性考场。
首先映入眼帘的是即将于 2026 年投入试运营的三款自研 Robotaxi 车型。不同于行业普遍依赖激光雷达+高精地图的冗余方案,小鹏坚持走纯视觉路线,以第二代 VLA 大模型为核心,构建端到端的感知-决策-执行闭环。
这一看似激进的技术选择其实暗含考量:传统模块化方案依赖工程师对场景进行穷举并编写规则,而端到端方案则依赖模型接触海量真实场景后“悟”出通用规则。
为了验证这种泛化能力能否满足真实商业运营的要求,小鹏选择高德作为全球首个生态合作伙伴。通过接入高德的出行平台,小鹏的 Robotaxi 将直面真实、海量的用户出行需求。这意味着 AI 司机必须 7x24 小时不间断地应对极端天气、夜间昏暗光线、无保护左转、复杂城市立交等长尾场景。这些场景无法通过仿真完全复现,却恰恰是 L4 自动驾驶能否商业化的分水岭。
与此同时,面向个人市场的“Robo”智驾版本也构成了其技术演进的数据飞轮。该版本搭载于高端量产车(如 X9Ultra),在为用户提供顶级智驾体验的同时收集覆盖范围更广、场景更丰富的人类驾驶数据。数万乃至数十万用户在日常驾驶中产生的 cornercase 数据将实时反哺 Robotaxi 的 L4 算法训练,加速其在长尾场景中的泛化能力。这种 B 端 C 端共进的协同路径也将赋予小鹏区别于 Waymo 等纯 Robotaxi 公司的独特优势。
如果说 Robotaxi 是在二维平面上扩大战场,那么飞行汽车就是在三维空间里挑战极限。飞行汽车不仅要应对风切变、气流扰动、空域冲突等传统航空难题,还需在城市楼宇间实现厘米级精准起降、自动避障与路径规划。
小鹏汇天构建了两套飞行体系。陆地航母是面向个人低空飞行的分体式飞行汽车;A868 则是一款全倾转混电飞行汽车,采用 6 人座舱设计,更侧重于多人的高效城际出行。
据悉,小鹏汇天的陆地航母订单超 7000 单、量产工厂试产、2026 年规模化交付;A868 飞行汽车巡航速度超 360km/h、续航超 500 公里,进入飞行验证阶段。
并且,敦煌市政府与小鹏汇天签署战略合作协议,打造西北首条低空自驾旅游线路。该营地首期规划建设五个专属飞行营地,首批计划 2026 年 7 月试运营。路线以鸣沙山月牙泉为起点,串联月牙泉小镇、光电博览园、阳关玉门关旅游区,终点至雅丹世界地质公园。
可以说,小鹏 Robotaxi 和飞行汽车都已经从技术概念进入了落地阶段,是“物理 AI”体系在现实世界的一次关键硬考。如果这一阶段能够站稳,说明 VLA 的基础逻辑具备现实可行性;如果暴露大量行为不可靠问题,则说明路线本身仍需大量调整。
而深入分析不难发现,这几款产品背后的底层逻辑是共通的。
它们都享有同一个大脑——第二代 VLA。
物理 AI 的大脑:第二代 VLA
如果说小鹏过去几年在智能驾驶领域的积累是量变,那么第二代 VLA 的推出则标志着一次彻底的质变。
与传统 VLA(Vision-Language-Action)不同,小鹏的这条技术路线直接跳过了 L(语言转译)的步骤,实现了从视觉信号到动作指令的端到端直接生成。
在过去,视觉输入通常需先转化为语义描述(例如“前方有行人正在横穿马路”),再由语言模型推理后生成动作指令(如“减速、停车”)。这种范式虽结构清晰,却引入了信息损耗、延迟和语义歧义,尤其在高速动态场景中成为性能瓶颈。
小鹏的第二代 VLA 则摒弃了这一中间层,直接从原始视觉信号端到端生成控制动作。摄像头看到的画面经过神经网络处理后直接输出方向盘转角、油门/刹车力度、飞行器倾转角度等物理执行指令。“所见即所控”的设计极大提升了系统的反应速度、拟人化程度与环境适应性。
据悉,为了训练这一模型,小鹏累计使用了近 1 亿 clip 的真实场景数据,相当于一名人类司机连续驾驶 65000 年所可能遇到的所有极限情况总和。
而透过第二代 VLA 的发布,我们能看见一个极有野心的“全产品引擎”技术路线。
端到端理念本身并不新鲜。早在自动驾驶早期,学术界就提出过纯端到端的驾驶模型。但过去这类系统往往局限于封闭赛道或特定工况,难以跨平台、跨任务迁移,更遑论同时驾驭轮式车辆、飞行器乃至双足机器人。
小鹏则打破这一边界,将第二代 VLA 作为全产品线的统一智能引擎进行设计:在 Robotaxi 上,它处理复杂城市场景中的社会交互与无图导航;在飞行汽车中,它解析三维空域结构、气流扰动与起降姿态;在人形机器人 IRON 体内,它协调 82 个自由度的仿生运动与精细操作。
值得注意的是,第二代 VLA 是小鹏首个量产物理世界大模型。得益于这一突破,小鹏在算力 2250TOPS 的 Ultra 版车型上部署了参数规模十亿级的模型,远超过行业普遍采用的千万级参数车端模型。
不过这条路线光有大脑还不够,强大的芯片和充足的算力才是支撑这套系统稳定运行的底层基座。
物理 AI 的心脏:图灵 AI 芯片和智算集群
再聪明的大脑也需要一颗强劲的心脏。在小鹏构建的物理 AI 体系中,这颗“心脏”正是其自研的图灵 AI 芯片。
作为本次科技日的重要发布之一,图灵芯片采用专用 NPU 架构,单颗算力高达 750 TOPS,不仅满足车规级可靠性要求,还将全面搭载于小鹏 Robotaxi、飞行汽车、人形机器人 IRON 等全系产品,形成统一的端侧 AI 计算平台。这意味着,无论智能体以何种形态存在,其底层执行单元都共享同一套高性能、低延迟的计算标准。
但仅有端侧心脏还不够。为了让物理 AI 持续进化,小鹏同步打造了国内汽车行业首个万卡级智算集群——“星云”。该集群目前已扩展至 3 万张 GPU 的规模,专用于自动驾驶、具身智能模型的训练、仿真验证与云端协同推理,为第二代 VLA 提供源源不断的智能血液。
图灵芯片与“星云”集群的结合构成了一个从训练到部署、从云端到终端的完整闭环:大模型在“星云”中学习海量真实世界数据,生成策略;图灵芯片则在终端高效执行这些策略,并将运行中产生的新数据反馈回云端,驱动下一轮迭代。
由此,第二代 VLA 所代表的物理 AI,不再只是实验室中的概念模型,而是一个真正具备跨场景、可量产、能进化能力的技术体系。
可以说,小鹏今年的科技日透露出一个信号:它要用同一种逻辑去解释世界,让机器基于同一种理解方式行动。
这就是小鹏关于未来十年的野心——构建一个物理 AI 体系。
所谓“物理 AI”,并非仅在虚拟环境中运行的算法模型,而是能够真正嵌入现实物理世界、与环境持续交互、并在动态复杂场景中自主行动的智能体。它要求 AI 不仅看得见,还要想得通、做得准,理解重力、摩擦、气流、社会规则等真实世界的约束,并在此基础上做出安全、高效、拟人的行为。
从这个角度看,机器人的争议会很快过去,短视频的热度终将消散。但物理 AI 到底能不能真正让机器理解世界、在城市和空域里行动,将是未来几年真正值得追的故事。
而对于小鹏而言,真正的考验才刚刚开始,如何将发布会中的愿景转化为现实、在未来十年中开花结果是目前最大挑战,也是我们持续关注的焦点。
版权声明: 本文为 InfoQ 作者【脑洞汽车】的原创文章。
原文链接:【http://xie.infoq.cn/article/8ed01a1f32de3c61a71b0ca3d】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。







评论