DriveGPT 自动驾驶大模型中国玩家首发!1200 亿参数,毫末智行出品
贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI
早知道会有这一天,但没想到如此快:
GPT 技术,“上车”!
DriveGPT,首个应用 GPT 模型和技术逻辑的自动驾驶算法模型,正式官宣,中文名雪湖·海若。
贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI
早知道会有这一天,但没想到如此快:
GPT 技术,“上车”!
DriveGPT,首个应用 GPT 模型和技术逻辑的自动驾驶算法模型,正式官宣,中文名雪湖·海若。
可能你已经猜到背后的玩家:毫末智行。
国内第一个将 Transformer 大模型引入自动驾驶、第一个自建超算、辅助驾驶量产落地进展第一…
尤其在自动驾驶研发端,毫末总是抢先别人一大步实践最前沿技术。而事后的进展又证明,毫末总是对的。
那么这次——掀起新一轮 AI 行业革命,震动圈内圈外的大模型 GPT,毫末到底如何把它用在自动驾驶上?
DriveGPT 是什么?“上车”有什么用?
ChatGPT 的震撼之处,在于它对现今人类涉足过的几乎各个领域都有基本正确的认知理解 ,针对简单的议题,还能给出比普通人更全面更恰当的回答。
赋予 ChatGPT 能力的的根源,从名字上就可以拆解出来。首先是 Chat,说明它本身是面向自然语言处理任务开发的,它目前的训练数据、方式、输出等等都是基于文本。
而真正把数据价值发挥出来,是 GPT,全称 Generative Pre-trained Transformer,生成式预训练大模型。
“大”的基础上,生成才是关键。
对应到自动驾驶上,DriveGPT 同样应用这样的思路,只不过训练的数据从语言文本,变成了图片、视频等等自动驾驶数据。
毫末智行的雪湖·海若,实现过程分为 3 步:
首先在预训练阶段引入量产智能驾驶数据,训练出一个初始模型,相当于一个具备基本驾驶技能的 AI 司机。然后再引入量产数据中高价值的用户接管片段(Clips 形式),训练反馈模型。而不同 Corner Case 的依次迭代,相当于针对不同驾驶任务挑战分别强化 AI 司机的技能。接下来就是通过强化学习的方法,使用反馈模型不断优化迭代初始模型。
所谓“生成”,反馈模型能够实时根据当前交通流情况,生成不同的针对性场景,训练初始模型。而完成迭代后,模型也能对同一任务目标生成不同的策略方案。
比如如果本车目标是通过拥堵路口,雪湖·海若能够给出三种方案供系统决策。
在打造 DriveGPT 时,毫末在雪湖·海若的几个过程中分别做了独特的工作。
首先初始模型预训练的数据,来自毫末已经量产积累的 4000 万公里实际道路数据,使得模型一开始就具有明显的量产实用价值,这是雪湖·海若得天独厚的条件。
ChatGPT 中使用自然语言单字作为 token 输入,根据模型根据概率分布来生成下一个字符。而在雪湖·海若这里,毫末重新定义了 50 万个新的 token,包括障碍物、车道线、行人等等,作为一种全新的“自动驾驶语言”。
DriveGPT 输入是感知融合后的文本序列,输出是自动驾驶场景文本序列。
其次,大模型对计算能力提出很高的要求,包括算力资源的弹性调度、底层算子性能、训练稳定性等等,毫末与火山引擎一同在算力端做了大量优化。
最后,还会根据输入端的提示语以及毫末 CSS 自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。
雪湖·海若目前共有 1200 亿参数量,据毫末初步估计,在 RLHF 加持下,困难场景通过率提升 48%左右。
ChatGPT 自动驾驶版——雪湖·海若的“上车”,其实是一个类比,模型本身始终部署在云端。
对于车端用户,雪湖·海若的价值却是能够快速兑现的。
比如具体功能上,生成式模型能够做到智能捷径推荐、困难场景自主脱困、智能陪练等等。
而中长期来看,它首先能够加速城市领航辅助功能(毫末 NOH)落地,而且是重感知不依赖高精地图量产方案,领先业内一年以上。
GPT 上车,为什么是毫末?
大模型在自动驾驶上的应用,其实早已有之。
尤其是毫末,最早认识到源自 NLP 领域的大模型在视觉领域同样具有巨大的潜力,通过超大规模模型、超大算力实现自动驾驶系统的快速迭代。
顾维灏 2021 年提出 Transformer 的应用,一直踏实于技术。毫末智行可以算是中国的自动驾驶大模型先驱。
大模型的应用,自然要求大算力,于是,毫末又成为国内第一个选择自建超算中心的自动驾驶公司。
毫末从来不是一个循规蹈矩的 AI 公司,总是在追逐技术最前沿,甚至有些“赶时髦”。
去年毫末发布的中国首个自动驾驶数据智能体系 MANA,经过一年多时间的应用迭代,现在到了全面升级,开放赋能行业的阶段。
另外,毫末从创立之初就坚定走数据驱动的技术路线,并建设了智算中心 OASIS,基于 L2 辅助驾驶系统的大规模前装量产形成了数据智能闭环体系,在迭代速度和成本优化上实现良性循环。
具体到技术理念,大模型层面的 Transformer 和这次的雪湖·海若,而自动驾驶感知和数据层面,毫末也是最早应用 BEV 以及 Clips 的团队。
而每一个毫末率先实践的技术理念,随后很快就在技术、商业进展上兑现了价值。
毫末的野心绝不是 Tier1,而是一家人工智能公司。
量产落地方面,毫末智行的智能驾驶系统已经累计了超过 4000 万公里的用户实际使用里程。
另外除了大股东长城汽车之外,毫末智行还另外获得了 2 家主要主机厂的项目定点。
研发层面,除了 4000 万公里的实际里程,毫末的 MANA 数据智能体系学习时长已经超过 56 万小时,相当于 6.8 万年驾龄的老司机。
在无人物流赛道,毫末自研的小魔驼已经完成配送超过 16 万单。
根据毫末智行董事长张凯判断:“2023 年智驾产品进入全线爆发期,大模型开启在车端的落地应用,车主的使用频率和满意度成为产品竞争力的重要衡量标准。毫末不断进步的数据驱动的六大闭环能力将进一步加速毫末进入自动驾驶 3.0 时代的步伐并形成相应的护城河。”
△毫末智行董事长张凯
毫末执行展现出来的,是自动驾驶公司里最懂如何量产落地的、Tier1 里最懂自动驾驶技术的、在有量产数据积累的公司中最懂如何真正数据闭环的。
所以毫末“追时髦”的背后,其实是对 AI 本质的认知,以及对自动驾驶量产的理解在驱动。
Transformer、BEV、Clips 等等技术理念,行业内现在几乎所有玩家都在跟进,已经成为没有争议的主流。
所以历次毫末 AI Day,也成了自动驾驶重要风向标。这次第八届大咖云集,包括董扬、朱西产、田奇...影响力越来越大.
毫末智行的三年,可以看成是自动驾驶落地最快的三年。
自动驾驶新希望
GPT“上车”,不是毫末这次唯一的“率先”。
除雪湖·海若之外,毫末智行在感知智能环节也做了新的探索。
在特斯拉之后,毫末智行在中国开始验证能否使用鱼眼相机代替超声波雷达进行测距,以及如何使用纯视觉 NeRF 网络重建高精度 3 维模型,并同时完成自动标注。
MANA 感知模块,一方面可同时学习三维空间结构和图片纹理,并将纯视觉测距精度超过了超声波雷达,BEV 方案也拥有了更强的通用性和适配性。
另一方面可实现单趟和多趟纯视觉 NeRF 三维重建,道路场景更逼真,肉眼几乎看不出差异。通过 NeRF 进行场景重建后,可以编辑合成真实环境难以收集到的 Corner Case。
目前行业里最难的视觉任务之一——单目视觉测量,特斯拉后,毫末把视觉 BEV 感知框架引入到了车端鱼眼相机,做到了在 15 米范围内达到 30cm 的测量精度,2 米内精度高于 10cm 的视觉精度效果。
毫末在视觉感知能力上的进步,落到量产阶段最直观的体现是同等能力前提下,智能驾驶硬件成本更低(取消各种雷达),功能进一步下放主流价位车型。
其实除了毫末,业内几乎所有玩家都走上了这样一条道路。这也是自动驾驶行业对去年以来遇到的“瓶颈”最直白的回答——
技术换时间,规模化部署和成本下探加速再加速。
谁能率先掌握低成本高效率的数据利用能力,谁就能最快看到全无人驾驶的曙光。
△毫末智行 CEO 顾维灏
毫末智行 CEO 顾维灏认为:“基于真实用户场景的反馈数据能够让我们更好的优化产品,让产品进步的更快。所有技术都要转化为对人有用的产品才最有价值。”
智能驾驶规模化普及更加明明朗,带来的自然是数据收集从量变跃迁到质变,而这需要的正是类似 DrivieGPT 的能力。
所以毫末智行率先把 GPT 用在自动驾驶,是给自动驾驶大规模普及带来了新的希望。
仅就毫末智行来说,雪湖·海若投入使用给业务带来的提升,至少有三个层面。短期来看,最早上车的长城魏牌车主用户,能享受更加好用强大的智能驾驶功能;中期来看,目前各家争夺的城市领航辅助功能,毫末借助大模型的迭代效率,很有可能在年内实现规模化上线(并非只在一两个城市)。
而长期来看,毫末智行将自动驾驶各个环节接入雪湖·海若之后,会进一步加速纯视觉方案能力的提升和成本下降,实现数据规模从量变到质变,从而最终实现端到端自动驾驶。
这本身具有颠覆性、跨越性的意义,将重塑汽车智能化技术路线。
雪湖·海若上线的同时,毫末还向 B 端合作伙伴开放系统,共同探索大模型在机器人、芯片等等行业的潜力。
ChatGPT 的出现,让人们看到深度学习引领的 AI 热潮非但没有瓶颈,反而更剧烈的爆发,甚至指向了 AGI(通用人工智能)可能的落地前景。
同样,毫末的雪湖·海若,除了加速自身业务,也指向了一条新的通向更高阶全无人自动驾驶的可能之路。
今后对自动驾驶实力的评判参考,除了落地速度、使用体验,最核心的还会加一条:大模型大数据能力。
One more thing
海若,出自《庄子·秋水》。
文中有两个神话人物河伯和海若。河伯请教海若,何谓大小之分,海若教导,不因天地而觉大,不因毫末而觉小。
“海若”,寓意着智慧包容、海纳百川。
“雪湖”又是从何而来,你知道吗?
卡奥斯开源社区是为开发者提供便捷高效的开发服务和可持续分享、交流的 IT 前沿阵地,包含技术文章、群组、互动问答、在线学习、大赛活动、开发者平台、OpenAPI 平台、低代码平台、开源项目等服务,社区使命是让每一个知识工人成就不凡。
可能你已经猜到背后的玩家:毫末智行。
国内第一个将 Transformer 大模型引入自动驾驶、第一个自建超算、辅助驾驶量产落地进展第一…
尤其在自动驾驶研发端,毫末总是抢先别人一大步实践最前沿技术。而事后的进展又证明,毫末总是对的。
那么这次——掀起新一轮 AI 行业革命,震动圈内圈外的大模型 GPT,毫末到底如何把它用在自动驾驶上?
DriveGPT 是什么?“上车”有什么用?
ChatGPT 的震撼之处,在于它对现今人类涉足过的几乎各个领域都有基本正确的认知理解 ,针对简单的议题,还能给出比普通人更全面更恰当的回答。
赋予 ChatGPT 能力的的根源,从名字上就可以拆解出来。首先是 Chat,说明它本身是面向自然语言处理任务开发的,它目前的训练数据、方式、输出等等都是基于文本。
而真正把数据价值发挥出来,是 GPT,全称 Generative Pre-trained Transformer,生成式预训练大模型。
“大”的基础上,生成才是关键。
对应到自动驾驶上,DriveGPT 同样应用这样的思路,只不过训练的数据从语言文本,变成了图片、视频等等自动驾驶数据。
毫末智行的雪湖·海若,实现过程分为 3 步:
首先在预训练阶段引入量产智能驾驶数据,训练出一个初始模型,相当于一个具备基本驾驶技能的 AI 司机。然后再引入量产数据中高价值的用户接管片段(Clips 形式),训练反馈模型。而不同 Corner Case 的依次迭代,相当于针对不同驾驶任务挑战分别强化 AI 司机的技能。接下来就是通过强化学习的方法,使用反馈模型不断优化迭代初始模型。
所谓“生成”,反馈模型能够实时根据当前交通流情况,生成不同的针对性场景,训练初始模型。而完成迭代后,模型也能对同一任务目标生成不同的策略方案。
比如如果本车目标是通过拥堵路口,雪湖·海若能够给出三种方案供系统决策。
在打造 DriveGPT 时,毫末在雪湖·海若的几个过程中分别做了独特的工作。
首先初始模型预训练的数据,来自毫末已经量产积累的 4000 万公里实际道路数据,使得模型一开始就具有明显的量产实用价值,这是雪湖·海若得天独厚的条件。
ChatGPT 中使用自然语言单字作为 token 输入,根据模型根据概率分布来生成下一个字符。而在雪湖·海若这里,毫末重新定义了 50 万个新的 token,包括障碍物、车道线、行人等等,作为一种全新的“自动驾驶语言”。
DriveGPT 输入是感知融合后的文本序列,输出是自动驾驶场景文本序列。
其次,大模型对计算能力提出很高的要求,包括算力资源的弹性调度、底层算子性能、训练稳定性等等,毫末与火山引擎一同在算力端做了大量优化。
最后,还会根据输入端的提示语以及毫末 CSS 自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。
雪湖·海若目前共有 1200 亿参数量,据毫末初步估计,在 RLHF 加持下,困难场景通过率提升 48%左右。
ChatGPT 自动驾驶版——雪湖·海若的“上车”,其实是一个类比,模型本身始终部署在云端。
对于车端用户,雪湖·海若的价值却是能够快速兑现的。
比如具体功能上,生成式模型能够做到智能捷径推荐、困难场景自主脱困、智能陪练等等。
而中长期来看,它首先能够加速城市领航辅助功能(毫末 NOH)落地,而且是重感知不依赖高精地图量产方案,领先业内一年以上。
GPT 上车,为什么是毫末?
大模型在自动驾驶上的应用,其实早已有之。
尤其是毫末,最早认识到源自 NLP 领域的大模型在视觉领域同样具有巨大的潜力,通过超大规模模型、超大算力实现自动驾驶系统的快速迭代。
顾维灏 2021 年提出 Transformer 的应用,一直踏实于技术。毫末智行可以算是中国的自动驾驶大模型先驱。
大模型的应用,自然要求大算力,于是,毫末又成为国内第一个选择自建超算中心的自动驾驶公司。
毫末从来不是一个循规蹈矩的 AI 公司,总是在追逐技术最前沿,甚至有些“赶时髦”。
去年毫末发布的中国首个自动驾驶数据智能体系 MANA,经过一年多时间的应用迭代,现在到了全面升级,开放赋能行业的阶段。
另外,毫末从创立之初就坚定走数据驱动的技术路线,并建设了智算中心 OASIS,基于 L2 辅助驾驶系统的大规模前装量产形成了数据智能闭环体系,在迭代速度和成本优化上实现良性循环。
具体到技术理念,大模型层面的 Transformer 和这次的雪湖·海若,而自动驾驶感知和数据层面,毫末也是最早应用 BEV 以及 Clips 的团队。
而每一个毫末率先实践的技术理念,随后很快就在技术、商业进展上兑现了价值。
毫末的野心绝不是 Tier1,而是一家人工智能公司。
量产落地方面,毫末智行的智能驾驶系统已经累计了超过 4000 万公里的用户实际使用里程。
另外除了大股东长城汽车之外,毫末智行还另外获得了 2 家主要主机厂的项目定点。
研发层面,除了 4000 万公里的实际里程,毫末的 MANA 数据智能体系学习时长已经超过 56 万小时,相当于 6.8 万年驾龄的老司机。
在无人物流赛道,毫末自研的小魔驼已经完成配送超过 16 万单。
根据毫末智行董事长张凯判断:“2023 年智驾产品进入全线爆发期,大模型开启在车端的落地应用,车主的使用频率和满意度成为产品竞争力的重要衡量标准。毫末不断进步的数据驱动的六大闭环能力将进一步加速毫末进入自动驾驶 3.0 时代的步伐并形成相应的护城河。”
△毫末智行董事长张凯
毫末执行展现出来的,是自动驾驶公司里最懂如何量产落地的、Tier1 里最懂自动驾驶技术的、在有量产数据积累的公司中最懂如何真正数据闭环的。
所以毫末“追时髦”的背后,其实是对 AI 本质的认知,以及对自动驾驶量产的理解在驱动。
Transformer、BEV、Clips 等等技术理念,行业内现在几乎所有玩家都在跟进,已经成为没有争议的主流。
所以历次毫末 AI Day,也成了自动驾驶重要风向标。这次第八届大咖云集,包括董扬、朱西产、田奇...影响力越来越大.
毫末智行的三年,可以看成是自动驾驶落地最快的三年。
自动驾驶新希望
GPT“上车”,不是毫末这次唯一的“率先”。
除雪湖·海若之外,毫末智行在感知智能环节也做了新的探索。
在特斯拉之后,毫末智行在中国开始验证能否使用鱼眼相机代替超声波雷达进行测距,以及如何使用纯视觉 NeRF 网络重建高精度 3 维模型,并同时完成自动标注。
MANA 感知模块,一方面可同时学习三维空间结构和图片纹理,并将纯视觉测距精度超过了超声波雷达,BEV 方案也拥有了更强的通用性和适配性。
另一方面可实现单趟和多趟纯视觉 NeRF 三维重建,道路场景更逼真,肉眼几乎看不出差异。通过 NeRF 进行场景重建后,可以编辑合成真实环境难以收集到的 Corner Case。
目前行业里最难的视觉任务之一——单目视觉测量,特斯拉后,毫末把视觉 BEV 感知框架引入到了车端鱼眼相机,做到了在 15 米范围内达到 30cm 的测量精度,2 米内精度高于 10cm 的视觉精度效果。
毫末在视觉感知能力上的进步,落到量产阶段最直观的体现是同等能力前提下,智能驾驶硬件成本更低(取消各种雷达),功能进一步下放主流价位车型。
其实除了毫末,业内几乎所有玩家都走上了这样一条道路。这也是自动驾驶行业对去年以来遇到的“瓶颈”最直白的回答——
技术换时间,规模化部署和成本下探加速再加速。
谁能率先掌握低成本高效率的数据利用能力,谁就能最快看到全无人驾驶的曙光。
△毫末智行 CEO 顾维灏
毫末智行 CEO 顾维灏认为:“基于真实用户场景的反馈数据能够让我们更好的优化产品,让产品进步的更快。所有技术都要转化为对人有用的产品才最有价值。”
智能驾驶规模化普及更加明明朗,带来的自然是数据收集从量变跃迁到质变,而这需要的正是类似 DrivieGPT 的能力。
所以毫末智行率先把 GPT 用在自动驾驶,是给自动驾驶大规模普及带来了新的希望。
仅就毫末智行来说,雪湖·海若投入使用给业务带来的提升,至少有三个层面。短期来看,最早上车的长城魏牌车主用户,能享受更加好用强大的智能驾驶功能;中期来看,目前各家争夺的城市领航辅助功能,毫末借助大模型的迭代效率,很有可能在年内实现规模化上线(并非只在一两个城市)。
而长期来看,毫末智行将自动驾驶各个环节接入雪湖·海若之后,会进一步加速纯视觉方案能力的提升和成本下降,实现数据规模从量变到质变,从而最终实现端到端自动驾驶。
这本身具有颠覆性、跨越性的意义,将重塑汽车智能化技术路线。
雪湖·海若上线的同时,毫末还向 B 端合作伙伴开放系统,共同探索大模型在机器人、芯片等等行业的潜力。
ChatGPT 的出现,让人们看到深度学习引领的 AI 热潮非但没有瓶颈,反而更剧烈的爆发,甚至指向了 AGI(通用人工智能)可能的落地前景。
同样,毫末的雪湖·海若,除了加速自身业务,也指向了一条新的通向更高阶全无人自动驾驶的可能之路。
今后对自动驾驶实力的评判参考,除了落地速度、使用体验,最核心的还会加一条:大模型大数据能力。
One more thing
海若,出自《庄子·秋水》。
文中有两个神话人物河伯和海若。河伯请教海若,何谓大小之分,海若教导,不因天地而觉大,不因毫末而觉小。
“海若”,寓意着智慧包容、海纳百川。
“雪湖”又是从何而来,你知道吗?
卡奥斯开源社区是为开发者提供便捷高效的开发服务和可持续分享、交流的 IT 前沿阵地,包含技术文章、群组、互动问答、在线学习、大赛活动、开发者平台、OpenAPI 平台、低代码平台、开源项目等服务,社区使命是让每一个知识工人成就不凡。
评论