毫末贺翔:DriveGPT 让通用感知实现“万物识别”、通用认知具备“世界知识”
2024 年 3 月 7-8 日,焉知汽车电子与软件生态合作科技节在上海举行。毫末智行数据智能科学家贺翔受邀出席并发表了《自动驾驶 3.0 时代,大模型重塑汽车智能化技术路线》的主题分享,详细讲解了毫末在自动驾驶大模型技术领域的前瞻研究与落地实践。
贺翔认为,AI 大模型技术是自动驾驶真正实现的唯一路径。毫末率先发布了行业首个自动驾驶生成式大模型 DriveGPT 雪湖·海若之后,始终在坚定投入大模型技术的研发创新,在数据的筛选挖掘、自动标注、生成仿真以及认知可解释性等方面实现了显著的突破和创新。
汽车正在经历着百年未遇之大变革,新科技、新材料、新工艺等新科技浪潮正驱动着汽车产业的转型升级。本次科技节的主题聚焦汽车电子与软件生态的合作与发展,旨在推动汽车电子和软件技术的创新与应用,加强产业链上下游企业间的交流与合作。在为期两天的会议中,与会者围绕智驾感知与域控、座舱 IMS、智能底盘、网络安全与数据安全、城区 NOA、AI 大模型等议题展开了深入探讨。
演讲中,贺翔分享了当下国内智驾市场的现状,他表示,“2024 是智驾市场爆发元年”。当下,乘用车市场正经历智能驾驶技术的渗透率不断提高,但其价格却呈现出与之相反的下降趋势,预计到 2025 年,市场上 L2 及以上级别的智能驾驶渗透率将达到 70%,并普及到 10-20 万的主销车型上;此外,城市 NOA(导航辅助驾驶)技术也即将迎来大规模的商业化应用。在硬件设计方面,随着技术的进步和市场的演变,行泊分体的设计将逐步退出历史舞台,而更具成本效益和性能优势的行泊一体域控方案将逐渐成为市场的主流选择。
截至 2024 年 2 月,毫末乘用车智能驾驶产品 HPilot 搭载车辆超过 20 款,用户辅助驾驶行驶里程突破 1.3 亿公里,小魔驼已经累计配送近 30 万单。这也使得毫末率先走进以大数据、大模型为特征,以数据驱动为开发模式的自动驾驶 3.0 时代。
贺翔解释,相比 2.0 时代的传统模块化框架,自动驾驶 3.0 时代将带来颠覆性变革。云端将实现感知大模型和认知大模型的能力突破,车端小模型将统一并实现 AI 模型化控制。智驾系统逐步全链路和大模型化,云端大模型将提升车端感知能力,实现远程控车,最终形成端到端的自动驾驶大模型,引领未来发展。
在感知阶段,DriveGPT 首先通过构建视觉感知大模型来实现对真实物理世界的学习,学习并建模真实世界至三维空间,结合时序形成 4D 向量空间。基于此,毫末引入图文多模态大模型,构建更通用的语义感知模型,整合文、图、视频信息,对齐 4D 空间与语义空间,实现类似人类的“识别万物”能力。
在认知阶段,基于通用语义感知大模型提供的“万物识别”能力,DriveGPT 通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,借助外部大语言模型 LLM 的海量知识来辅助给出驾驶决策。
由于大语言模型已经学习到并压缩了人类社会的全部知识,因而也就包含了驾驶相关的知识。毫末经过对大语言模型的专门训练和微调,从而让大语言模型更好地适配自动驾驶任务,使得大语言模型能真正看懂驾驶环境、解释驾驶行为、做出驾驶决策。认知大模型通过与大语言模型结合,使得自动驾驶认知决策获得了人类社会的常识和推理能力,也就是获得了世界知识,从而提升自动驾驶策略的可解释性和泛化性。
2023 年 DriveGPT 成功入选“北京市通用人工智能产业创新伙伴计划”成为首批模型伙伴观察员及入选北京市首批人工智能 10 个行业大模型应用案例。此外,DriveGPT 还助力毫末荣获 2023 中国 AI 基础大模型创新企业的称号。
贺翔表示,支撑毫末智能驾驶产品迅猛进化的核心,在于对智能驾驶基础设施和技术研发的持续投入与坚守——沿着大数据、大模型、大算力的技术脉络,毫末将不断汲取海量多模态数据的滋养,坚定迈向端到端自动驾驶大模型的征程,为自动驾驶的稳健发展与持续创新注入强大动力。
评论