聚焦港美股

專題 11927條資訊 90672人訂閱

萬字硬核解讀：「端到端」讓特斯拉FSD V12迎來質變？

騰訊科技 · 08/18 09:54

来源：腾讯科技
作者：郭晓静

在2022的Q4财报会议上，马斯克曾自信地宣称在自动驾驶领域特斯拉处于遥遥领先的绝对第一，“拿望远镜都找不到第二名”，彼时 $特斯拉(TSLA.US)$ 的自动驾驶已经跳票6年，《华尔街日报》委婉地表示不再相信马斯克……

一年后，特斯拉在2024年初开始在一定范围内推送FSD V12，并于同年3月将FSD Beta改名为FSD Supervised，特斯拉智驾团队负责人AShok Elluswamy在X（推特）上发文称基于“端到端”（“end-to-end”）的FSD V12在数月的训练时间内，已经完全超过了数年积累的V11。

同时FSD V12的推出很快得到了业界的积极回应，英伟达CEO黄仁勋在接受外媒采访时高度评价“特斯拉在自动驾驶方面遥遥领先。特斯拉第12版全自动驾驶汽车真正具有革命性的一点是，它是一个端到端的生成模型。”；

Michael Dell （戴尔科技集团董事长兼CEO）在X上表示“全新的V12版本令人印象深刻，它就像人类司机一样”；

Brad Porter（曾任Scale AI首席技术官、亚马逊机器人副总裁）同样称“FSD V12就像是ChatGPT 3.5到来的时刻一样，它并不完美，但令人印象深刻，你可以看出这是完全不同的东西，迫不及待地期待它进化到GPT4那样”；

就连曾经对特斯拉“剑拔弩张”的小鹏汽车董事长何小鹏，在试驾完FSDV12后也在微博上评价“FSD V12.3.6表现极好，要向其学习”，并且他还表示“今年的FSD和以前的Tesla自动驾驶从能力上完全是两个，我非常赞赏”。

那究竟是什么样的改动，让FSD V12如醍醐灌顶般在短短几个月的时间就超越了过去数年的积累？这一切都要归因于“端到端”的加入，而要想系统地了解特斯拉FSD V12前后版本翻天覆地的变化，则要从自动驾驶的基本框架以及FSD V12的前世讲起。

为了让大家读完本文都能有所收获，我力争降维到小学生模式，在保证专业度的同时增加可读性，用通俗易懂的表达将自动驾驶的基本框架概念、FSD V12的前世今生讲清楚，让没有任何专业背景知识的小学生也能轻松搞懂。

读完本文后，你会对当下自动驾驶行业最火且达成共识的“端到端”以及曾经爆火的“模块化”、“BEV鸟瞰图 +Transformer”、“Occupancy 占用网络”等相关概念有清晰的认知。除此之外，你还会了解特斯拉V12为何是突破性的、为何自动驾驶的ChatGPT时刻即将到来，同时你也会对当下自动驾驶行业发展到哪一步形成初步的判断。

文章有些长，但耐心读完后，一定有所收获。

01 初识自动驾驶：模块化到端到端

1.1 自动驾驶分级

在正式开始前，我们需要对自动驾驶的整体框架有一个了解：目前被国内外广泛接受的自动驾驶分级标准是SAE（国际汽车工程学会）的分级，从L0-L5共6个级别，随着级别的上升，车辆对驾驶员手动应急接管的需求越来越小，自动驾驶系统的功能也越来越齐全，到了L4、L5级别后便不再需要驾驶员接管驾驶（理论上在这两个阶段，方向盘、踏板都无需安装）。

L0级：无自动化

L1级：“部分解放司机双脚”辅助驾驶

L2级：“部分解放司机双手”（部分自动化）当前发展阶段

L3级：“部分解放司机双眼”（有条件自动化）当前发展阶段

L4级：“解放司机大脑”（高度自动化）

L5级：“无人”（完全自动化）

1.2 自动驾驶设计理念：模块化 vs 端到端

了解清楚自动驾驶分级的基本框架后，我们便需要进一步了解车辆是怎样实现自动驾驶的。自动驾驶的设计理念可以分为两类，分别是传统的模块化设计和端到端设计。在2023年特斯拉的标杆作用下，现在端到端自动驾驶已经逐渐成为了行业和学术界的共识。（2023 年 CVPR 最佳论文奖的 UniAD便采用的端到端，体现学术界对该设计理念的认同；自动驾驶行业中，继特斯拉后，华为、理想、小鹏、蔚来等多家智驾公司纷纷跟进端到端，代表业界对该理念的认同。）

1.2.1模块化

在比较两个设计理念的优劣前，我们首先来拆解下什么是模块化设计：它包含感知、决策规划、执行控制三大模块（如图4所示），研究人员可以通过调试每个模块的参数来使车辆适应各种场景。

感知模块：负责收集和解释车辆周围环境的信息，通过各种传感器（比如摄像头、激光雷达、雷达、毫米波等）检测和识别周围物体（比如其他交通参与者、信号灯、道路标志）——感知模块是自动驾驶的核心，在端到端上车之前大部分的技术迭代都集中在感知模块，核心目的就是让汽车的感知水平达到人类水平，让你的汽车能够像你在开车时一样注意到红灯、加塞车辆甚至是马路上的一条狗。

注：在给车辆提供感知信息的部分还包括定位部分，比如有些企业会使用高精地图来确定车辆在环境中的精确位置（但高精地图成本高、且精确数据的获取有很大难度，不易推广）。

决策规划模块：基于感知模块输出的结果，预测其他交通参与者的行为和意图，并制定车辆的行驶策略，确保车辆能到安全、高效、舒适地到达目的地。这个模块就像是车辆的大脑（前额叶部分），随时根据已输入的代码规则（Rule based）思考着最佳的行驶路径、何时超车/变道、面对加塞车辆时是让还是不让、在感受到红绿灯时是走还是不走、在看到外卖小哥占道行驶时是超还是不超等问题。

——在这部分车辆是基于代码规则来进行决策的，举一个最简单的例子，车辆的代码写入红灯停绿灯行、见到行人要让行的指令，那么在对应的场景下，我们的汽车便会根据提前写好的代码规则进行决策规划，但如果出现没有写进规则的情况，那么我们的车便不知该如何应对了。

控制模块：执行决策模块输出的行驶策略，控制车辆的油门、刹车和转向。如果说决策模块是大脑军师的话，那么控制模块就是听从军令的士兵，“指哪打哪”。

模块化的优缺点

优点：可解释、可验证、易调试

因为每个模块都是相对独立的，所以当我们的车辆出现问题时我们可以回溯究竟是哪个模块出现了问题；在出现问题后，我们只需要在原有代码规则的基础上调整对应的参数即可，简单来说“比如我们自动驾驶的车辆在面对其他车辆加塞时，刹车过猛，那我们只需要调整加塞情况下，车辆的速度、加速度该如何变化即可”。

缺点：传递过程中信息损耗、任务多且散导致低效、存在复合误差、规则难以穷尽导致构建和维护成本高。

信息在传递过程中存在损耗：传感器的信息从进入感知模块再到控制模块输出，中间经历了多个环节，信息在传递过程中除了效率变低以外不可避免地会有信息的损耗；举一个简单的例子比如在传话游戏中，第一个人说的是“你好”，经过中间几个人的传递后，到最后一个人那里可能变成风马牛不相及的“李吼”。

规则难以穷尽导致构建和维护成本高：大家如果理解了模块化的基本逻辑后，便知道模块化是基于规则的，车辆在道路上做的所有决策背后都是一条一条的规则，而规则的背后则是一条一条的代码，程序员提前将道路上的规则以代码的形式写好，车辆在对应情况的时候便根据写好的规则遍历所有可能选出最优解，进行决策进而采取相应的行为。

说到这里大家可能觉得没什么，我们直接把类似于红灯停、绿灯行的这些规则都写进去不就好了，然而工程师很难穷尽路上的所有情况，因为真实的物理世界是一直在变化的，有无数种排列组合，我们只能预期到常规的事情并把它写进规则中，但是小概率的极端事件也是会发生的（比如道路上突然出现一只猴子在和人打架），所以依靠代码堆叠规则到最后只能苦叹一声“人力有时穷”。

1.2.2 端到端

讲完了模块化，我们接下来就看下目前行业最认可的端到端究竟是怎么一回事儿。所谓端到端（End-to-End）就是信息一头进入一头输出，中间没有各个模块传输来传输去，一站式搞定。

也就是基于统一的神经网络从原始传感器数据输入直接到控制指令输出的连续学习与决策过程，过程中不涉及任何显式的中间表示或人为设计的模块，不再需要工程师人为写无穷尽的代码了，除此之外；其另一个核心理念就是无损的信息传递（原来可能是多人传话游戏，端到端就变成了你说我听）。

我列举两个例子来给大家讲解模块化和端到端的区别：模块化设计理念下的车辆就好像是在驾校学车的、没有自主意识、且不会主动模仿学习的新手司机，教练说做什么他就做什么（编写代码规则），教练跟它说红灯要停下来、遇到行人要礼让，它就按照教练的说法做，如果遇到教练没说过的事儿，它就愣在那里不会处理了（武汉“芍萝卜”）。

而端到端设计理念下的车辆则是一个拥有自主意识并且会主动模仿学习的新手司机，它会通过观察别人的驾驶行为来学习，最开始它就像一个菜鸟一样，什么也不会，但是它是个好学的孩子，在给它观看了成百上千万的优秀老司机怎么开车的视频后，它慢慢就变成了真正的老司机，然后它的表现只能用一个字来形容，那就是“稳”！

资料来源：Li, Xin, et al. Towards knowledge-driven autonomous driving 华鑫证券研究

如图7所示，基于一条一条代码规则驱动的模块化设计理念的车辆，读到大学就无法再往上进修了，而基于数据驱动（给车辆看的老司机开车的视频就是所谓的数据）的端到端虽然初期是在小学，但它具备很强的成长性和学习性（强化学习和模仿学习），可以很快地进修到博士。（就像余承东评价“Fsd下限低，上限高那样”，但只要你有足够多的数据，给予它足够多的老司机驾驶的视频，它不便不会停留在低水平太长时间）。

当然，目前围绕端到端的基本定义仍然存在争议，“技术原教旨主义者”认为，市面上很多公司宣传的“端到端”并不是真正的端到端（比如模块化的端到端），他们认为真正的端到端应该是全局端到端，从传感器输入到最后控制信号输出，中间所有步骤都是端到端可导的，可进行全局优化;而“实用主义者”则认为只要基本原理符合，能让自动驾驶车辆的性能表现提升就可以。

端到端的三大划分

有的朋友看到这里可能有些懵，端到端也有不同划分？是的没错，目前端到端主要可以划分成三类（目前存在多种不同划分，为了便于大家理解，本文只列举英伟达GTC大会的划分），如图8所示可以分成显式端到端、隐式端到端、基于大语言模型的端到端。

资料来源：英伟达GTC大会、开源证券研究所整理

显式端到端

显式端到端自动驾驶将原有的算法模块以神经网络进行替代，并连接形成端到端算法。该算法包含可见的算法模块，可以输出中间结果，当进行故障回溯时可以一定程度上进行白盒化调整。在这个情况下，便不再需要工程师一行一行去敲代码来撰写规则了，决策规划模块从手写规则向基于深度学习的模式进行转变。

看起来有些抽象难懂，我们用大白话来讲的话就是端到端了但又没有完全端到端（也叫做模块化的端到端），而所谓的白盒其实是相对于黑盒而言的，在后面隐式端到的部分我会用新手司机的例子来展开讲，这里看不懂不要紧可以先行跳过。

获得2023年CVPR最佳论文的UniAD模型就是采用的显式端到端，如下图所示，我们能够明显观察到各个感知、预测规划等模块采用了向量的方式进行连接。

注：显示端到端需要结合隐式端到端一起理解，不要孤立开；显式端

资料来源：Hu, Yihan, et al. Planning-oriented autonomous driving.

隐式端到端

隐式的端到端算法构建整体化的基础模型，利用海量的传感器接收的外部环境数据，忽略中间过程，直接监督最终控制信号进行训练。“技术原教旨主义者”认为如图9这样的传感器信息一头进入另一头直接输出控制信号的端到端才是真正的端到端，中间没有任何额外模块。

前面我们提过显式端到端，通过比较图8和图9，能够看出明显的区别就是：隐式一体化的全局端到端中间没有各个模块，只有神经网络存在（传感器就是它观看世界的方式，中间的端到端系统就是它的完整的大脑，方向盘、刹车油门就是它的四肢）；而显式端到端不同的地方在于它把中间完整的大脑按照模块化的方式给分开了，虽然它不再需要编写代码去学习各种各样的规则，已经逐渐可以通过观看老司机视频的方式学习，但是，它依旧是分模块去做的，所以批评的声音会认为其不是真正意义上的端到端。

但这样做也有它的好处，我们在前面提到过显式端到端在一定程度上是白盒的，这是因为当我们的车辆通过学习涌现出一些我们不期望的糟糕行为时，我们可以回溯究竟是哪个模块的端到端出现了问题，而作为黑盒模型的隐式端到端则无从下手，因为它是完全一体化的，创造它的人也不知道它为什么会这样做（这就是大家老在网上听到的黑盒的大概意思）。

资料来源: PS Chib, et al. Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey

生成式AI大模型的端到端

ChatGPT为自动驾驶带来了极大的启发。它运用无需标注且成本低廉的海量数据进行训练，还具备人机互动以及回答问题的功能。自动驾驶可以效仿这种人机互动的模式，输入环境方面的问题，它直接输出驾驶决策，通过基于大语言模型的端到端来完成这些任务的训练运算。

AI大模型的主要作用有两点，一是可以低成本生成海量接近真实的、包含Corner Case（自动驾驶过程中很少出现但可能导致危险的异常情况）的多样化训练视频数据，二是采用强化学习的方法来达到端到端的效果，从视频感知到直接输出驾驶决策。其核心就是模型可以通过自然数据自己推理学习因果，不再需要标注，模型整体的泛化能力得到大幅度提升，类似ChatGPT那样，以自回归的方式从上一个场景预测下一个场景。

让我们用更简单的话来讲一下大模型对于端到端的重要性：

目前自动驾驶数据库的价值极低：通常包括两种数据，一种是正常行驶情况，千篇一律，占公开数据约 90%，如特斯拉影子模式。马斯克承认这种数据价值较低，有效性可能仅万分之一甚至更低。另一种就是事故数据即错误示范。用其做端到端训练，要么只能适应有限工况，要么会出错。端到端是黑盒子，无法解释、只有相关性，需高质量、多样化的数据，训练结果才可能好点。

端到端需先解决数据问题，靠外界采集不太可行，因为成本高、效率低且缺乏多样化和交互（自车与其他车辆、环境的交互，需昂贵人工标注），因此引入生成式AI大模型，它能制造海量多样化的数据，减少人工标注，降低成本。

除此之外大语言模型端到端的核心逻辑是预测未来发展，本质是习得因果关系。当前神经网络与人类有差距，神经网络是概率输出，知其然而不知其所以然；人类可通过观察及无监督交互学习物理世界运行常识，能判断合理与不可能，通过少量试验学习新技能并预测自身行为后果。而生成式AI端到端大模型就是希望神经网络也具备像人类这样举一反三的能力。

举个例子来说：我们人类司机肯定会遇到一些没有见过但可能有危险的情况，虽然没有经历过，但是通过往的经验我们可以推断出这个情况做什么才能保住小命（比如我们可能都没有经历过路上出现一个霸王龙的现象，但当霸王龙真的出现后，我们肯定会抓紧开车逃跑），通过过往经验推测并判断行为合理与否，这就是我们希望大语言模型端到端做的事情，希望我们的车辆真正地像人一样开车。

资料来源: Guan, Yanchen, et al. "World models for autonomous driving: An initial survey."

目前由于特斯拉还未召开第三次AI Day，所以我们暂时不清楚特斯拉端到端的具体网络架构，但是根据特斯拉自动驾驶负责人Ashok在2023CVPR以及马斯克本人的一些回复，可以推测特斯拉的端到端模型很有可能是基于大语言模型的端到端（World model）。（期待特斯拉的第三次AI Day）

端到端的优缺点

优点：无损的信息传递、完全由数据驱动、具备学习能力更具范化性

随着感知、决策规划端到端自动驾驶路径逐渐清晰，端到端为迈向L4无人驾驶提供了想象空间。

缺点：不可解释、参数过大，算力不足、幻觉问题

如果你用过ChatGPT之类的大语言模型，那你就会知道有些时候它会一本正经的胡说八道（也就是幻觉问题），聊天时胡说八道无关痛痒，但是！如果在马路上，你的车辆一本正经的胡乱开，可是会要人命的！而且因为黑盒问题，你还没办法回溯原因所在，这是便是目前端到端急需解决的问题，目前常见的解决方案便是加入安全冗余。

除此之外，端到端落地同样还面临着算力和数据的巨大需求，根据辰韬资本的报告显示，尽管大部分公司表示 100 张大算力 GPU 可以支持一次端到端模型的训练，但这并不意味着端到端进入量产阶段只需要这一数量级的训练资源。大部分研发端到端自动驾驶的公司目前的训练算力规模在千卡级别，随着端到端逐渐走向大模型，训练算力将显得捉襟见肘。而算力的背后就是钱（并且由于美国禁止向中国实体出售高端芯片使这一困境加剧），就像理想汽车的郎咸朋说的那样，“智能驾驶未来一年10亿美元只是入场券”。

讲到这里，我们便把自动驾驶最基础的一些框架性内容讲完了（因为篇幅有限，故只包含了一小部分），从历史的眼光回头看，自动驾驶的进步基本上就是沿着特斯拉既定的路线往前走的（这中间各个厂商会在其原有路线的基础上有所创新，但本质并未偏离），从某种程度上来说，或许能跟住特斯拉本身就是一种能力。接下来，我将会从模块化和端到端的发展给大家展开讲一下特斯拉FSD V12的前世今生。

02 特斯拉FSD的前世今生，能跟住特斯拉本身就是一种能力？

2.1特斯拉FSD V12的前世

特斯拉智能驾驶的发展史在一定程度上反应了自动驾驶行业最重要的一条路线的发展史，在2014年时，特斯拉发布第一代硬件Hardware 1.0，软硬件均由Mobileye（一家以色列的汽车科技公司）提供，然而整体合作随着2016年特斯拉“全球首宗自动驾驶致命事故”而结束（这里的核心原因在于Mobileye提供的是封闭黑盒方案，特斯拉不能修改其中的算法，而且还不能与Mobileye共享车辆数据）。

资料来源：特斯拉官网、国信证券研究所

2016到2019则是特斯拉的自研过渡期。在2019年Hardware升级到了3.0版本，并且采用第一代自主研发的FSD1.0芯片，增加了影子模式功能，帮助特斯拉收集大量的自动驾驶数据，为其纯视觉路线打下基础。

2019到2024FSD V12.0大范围推广前，是其全面自研时期，2019年算法架构向神经网络升级提出HydraNet九头蛇算法，2020开始聚焦纯视觉-，并在2021和2022的AI Day上接连公布了BEV和Occupancy网络架构，在北美验证了BEV +Transformer+Occupancy的感知框架，国内厂商开始纷纷跟进（这中间差了1-2年左右）。

我们在前面提到过，模块化智能驾驶设计理念中最核心的部分就是感知模块，也就是我们要如何让车辆更好地理解传感器（摄像头、雷达、毫米波等）输入的信息，而上面所提的一堆概念以及特斯拉在FSD V12版本之前做的大部分事情都是在让感知模块变得更智能，从某种程度上可以理解为让感知模块走向端到端，因为要想让车能够自动驾驶，第一步就是让它真实客观地感受这动态变化的物理世界。

其次才是给它制定行驶规则（决策规划模块），而决策规划模块较为传统，采用蒙特卡洛树搜索+神经网络的方案（类似谷歌AlphaGo下围棋的方案），快速遍历所有可能性找出胜率最高的那条路径，其中包含了大量人为输入的代码规则，即根据大量预先设定的人为规则来在道路中设想并选择最佳的轨迹（遵守交规且不碰撞其他交通参与者），而控制模块更多是油门刹车方向盘等硬件层面的事情。

因为感知模块是进步变化最核心的部分，接下来我会尽量用通俗易懂的话讲解其中包含的这些概念的基本作用，以及它们分别解决了什么问题（因为文字篇幅有些，所以有所精简）。

2.1.1特斯拉FSD感知侧的进化

2017年，之前在斯坦福任教的Andrej Karpathy加入特斯拉，标志着特斯拉感知侧端到端的进化拉开序幕：

（1）HydraNet九头蛇算法—2021年特斯拉AI DAY公布

HydraNet是特斯拉开发的一种复杂的神经网络，用来帮助汽车“看见”和“理解”周围的环境。HydraNet这个名字来源于希腊神话中的九头蛇“Hydra”。这个网络系统也像多头蛇一样，有多个“头”可以同时处理不同的任务。这些任务包括物体检测、红绿灯识别、车道预测等。而它的三大优点就是特征共享、任务解耦、能缓存特征更高效微调。

特征共享：通俗来讲就是基于HydraNet的主干网络backbone处理最基本的信息，然后再把处理过的信息共享给它的不同小脑袋（head），好处在于每个“小脑袋”不用重复处理相同的信息，可以更高效地完成各自的任务。

任务解耦：将特定任务与主干分离，能够单独微调任务;每个“小脑袋”专门负责一种任务，比如一个负责识别车道线，另一个负责识别行人，等等。这些任务之间互不干扰，各自独立完成。

能缓存特征更高效微调：通过限制信息流动的复杂度，确保只有最重要的信息传递给各个“小脑袋”，这个“瓶颈”部分能够缓存重要特征，并加速微调过程。

（2）BEV（Birds’Eye View鸟瞰视角+Transformer）—2021年特斯拉AI DAY公布

平面图像走向3D鸟瞰空间

HydraNet帮自动驾驶的车辆完成了识别的工作，而对于车辆周围环境的感知则由BEV（Birds’Eye View鸟瞰视角）+ Transformer完成，两者的结合帮助特斯拉完成了将八个摄像头捕捉到的2维平面图片转换为3D向量空间的工作（也可以由激光雷达完成，但激光雷达的成本要远远高于摄像头）。

鸟瞰图是一种从上往下俯视的视角，就像你在高空中俯视地面一样。特斯拉的自动驾驶系统使用这种视角来帮助汽车理解周围的环境。通过将多个摄像头拍摄到的图像拼接在一起，系统可以生成一个完整的道路和周围环境的平面图（2D）。

而Transformer能将来自不同摄像头和传感器的数据有效融合，像一个超级聪明的拼图高手，将不同角度的图像拼成一个完整的环境视图。将这些平面视角数据融合成一个统一的3D视角的鸟瞰图景。这样，系统可以全面、准确地理解周围的环境（如图14所示）。

而且BEV+Transformer可以消除遮挡和重叠，实现“局部”端到端优化，感知和预测都在同一个空间进行，输出“并行”结果。

（3）Occupancy Network占用网络——2022年特斯拉AI DAY公布

Occupancy占用网络的加入让BEV从2D变成了真正意义上的3D（如图16所示），并且在加入时间流信息（基于光流法）之后，完成了由3D向4D的过度。

Occupancy Network占用网络引入了高度信息，实现了真正的3D感知。在之前的版本中，车辆可以识别训练数据集中出现的物体，但对于未见过的物体则无法识别，而且即使认识该物体，在BEV中也只能判断其占据一定程度的方块面积，而无法获取实际形状。Occupancy网络通过将车辆周围的3D空间划分成许多小方块（体素），实现了对每个体素是否被占据的判断（其核心任务不在于识别是什么，而是在于判断每一个体素中是否有东西被占据）。

这就像你在迷雾中开车，虽然看不清楚前面是什么，但你大概知道前面有障碍物，你需要绕过去。

Occupancy Network也是通过Transformer来实现的，最终输出Occupancy Volume（物体所占据的体积）和Occupancy flow（时间流）。也就是附近的物体占据了多大的体积，而时间流则是通过光流法来判断的。

光流法假设构成物体的像素亮度恒定且时间连续，通过对比连续两帧图像中的像素位置变化，最终带来了4D投影信息。

（4）特斯拉引领感知技术收敛，国内头部厂商陆续跟随

大家读到这里可能没有很直接的触感，但我给大家列举几个直观数据

2021年FSD V9，第一届AI Day公布BEV网络，国内2023年BEV架构开始上车。
2022年第二届AI Day特斯拉公布Occupancy Network占用网络，2023-2024年国内Occupancy占用网络开始上车。
2023年特斯拉宣布FSD V12采用端到端技术，2024年国内厂商纷纷跟进（采用模块化的端到端）。

资料来源：腾讯科技涵清整理绘制

BEV+Transformer解决了自动驾驶车辆对高精地图依赖的问题：高精地图和我们日常用的高德、百度地图不一样（如图20所示），它精确到厘米级别并且包括更多数据维度（道路、车道、高架物体、防护栏、树、道路边缘类型、路边地标等数据信息）。它的成本是很高的，需要时时刻刻保证地图厘米级别的精确性，然而道路的信息总是会有变化的（比如临时施工），所以就需要长时间进行采集测绘工作。而想依靠高精地图实现所有城市场景的自动驾驶，是不现实的。大家现在应该可以在一定程度上理解BEV带来的贡献了（注：特斯拉Lane神经网络同样是摆脱高精地图的关键算法，由于篇幅限制，这里不做过多阐述）

Occupancy Network占用网络解决障碍物识别率低的问题：将识别的物体变成4D，无论车辆周围有什么东西，无论它认识与否，它都可以将其识别出来，避免碰撞问题。而在此之前，车辆只能识别训练数据集中出现过的物体。Occupancy Network占用网络一定程度上带领自动驾驶上实现了依靠神经网络的感知侧端到端，意义重大。

2.2特斯拉FSD V12的今生

在文章开头我们提到：特斯拉智驾团队负责人AShok Elluswamy在X（推特）上发文称基于“端到端”（“end-to-end”）的FSD V12在数月的训练时间内，已经完全超过了数年积累的V11。

再结合业内一众大佬对FSD V12的高度肯定，可以看出FSD V12和V11可以说是两个东西，因此我以V12为分界线将其分为前世今生。

根据表1可以看出自从，FSD V12上车之后，其迭代速度远远快于之前，30多万行的C++代码缩减到几千行，可以在社交媒体上看到消费者、从业者都频繁表示特斯拉FSD V12的表现更像人了。

表1.FSD迭代版本资料来源：特斯拉AI Day、马斯克推特、中泰证券，腾讯科技涵清整理绘制

特斯拉究竟是如何实现的蜕变我们不得而知，但是从AShok Elluswamy在2023 CVPR的演讲上或许可以推断其端到端的模型很有可能是在原有的Occupancy的基础上构建的。“Occupancy模型实际上具有非常丰富的特征，能够捕捉到我们周围发生的许多事情。整个网络很大一部分就是在构建模型特征。”

从整体思路来看，国内模块化的端到端可能和特斯拉构建的大模型端到端存在一定差别。

由于前文已经大致讲过什么是端到端，因此我们这里不再过多赘述，接下来我想要跟大家聊下为什么说在这场自动驾驶的竞赛中，特斯拉目前是处于领先的位置，我们可以通过客观数据来进行对比。

开启端到端时代后，车企端到端的智驾水平主要由三大因素决定：海量的高质量行车数据、大规模的算力储备、端到端模型本身，与ChatGPT类似，端到端自动驾驶也遵循着海量数据×大算力的暴力美学，在这种暴力输入的加持下，可能突然涌现出令人惊艳的表现。

由于不知道特斯拉是如何实现其端到端的，所以我们这里只讨论数据和算力

2.2.1特斯拉构建的算力壁垒

FSD的发展史可以说是其算力积累的发展史，2024年初，马斯克在X（原推特）上表示算力制约了FSD功能的迭代，而3月开始，马斯克表示算力不再是问题了。

Dojo芯片投入量产后，Tesla由原先A100集群不到5EFLOPS的算力规模迅速提升到全球算力前5水平，并有望于今年10月达到100EFLOPS的算力规模，约30万张A100的水平。

再对比国内厂商的算力储备（如图24所示），可以看到在各种现实因素限制下，中美智能驾驶算力储备方面的差距还是较为明显的，国内厂商任重道远。

资料来源：汽车之心、公开资料、甲子光年智库，由腾讯科技涵清整理绘制

当然算力的背后还意味着巨大的资金投入，马斯克在X（原推特）上表示今年将在自动驾驶领域投资超100亿美元，也许真像理想汽车智能驾驶副总裁郎咸朋说的那样，“未来一年10亿美元只是入场券”。

2.2.2特斯拉的高质量数据

端到端的智能驾驶就像一个潜力极高的小天才，你需要给它投喂大量高质量的老司机驾驶视频，才能让它快速地成长成开车领域的博士生，而这又是一个大力出奇迹的过程。

马斯克在财报会中提到训练模型所需的数据：“100万个视频 Case 训练，勉强够用；200万个，稍好一些；300万个，就会感到Wow；到了1000 万个，就变得难以置信了。”而训练仍需要优质的人类驾驶行为数据，得益于特斯拉自身的影子模式，数百万辆量产的车辆可以帮助特斯拉收集数据，并且特斯拉在2022AI Day时便公布其建立了全面的数据训练流程：涵盖了数据采集、模拟仿真、自动标注、模型训练和部署等环节。截至2024年4月6日，FSD用户的累计行驶里程已超10亿英里。而国内任何一家厂商用户的累积行驶里程都较其相差甚远。

而数据质量和规模要比参数更能决定模型的表现，Andrej Karpathy曾经表示过特斯拉自动驾驶部门将3/4的精力用在采集、清洗、分类、标注高质量数据上，只有1/4用于算法探索和模型创建。由此可见数据的重要性。

特斯拉正一步步探索自动驾驶的“无人区”，将规模和能力推向极致。

03 结语

当然，最终效果还是要看车辆的实际上路表现。特斯拉 V12 运行的区域主要集中在美国，而那里整体的道路交通状况较好，不像国内，行人、电动车随时可能突然窜到马路上。不过从技术角度而言，一个能在美国熟练开车的人，没道理到中国就不会开了。何况学习能力是其核心特点之一，或许初步落地时表现不如在美国本土那般出色，但参考FSD V12.5 之前的迭代时间，可能半年到一年后它就能适应中国的道路情况了。

这对国内厂商的影响颇为重大，就看众多智驾企业将如何应对特斯拉这个已在美国得到验证的 FSD V12 了。

参考资料：

1. Mobileye官方资料

2. 2021 Tesla AI Day

3. 2022 Tesla AI Day

4. 特斯拉官方

5. 特斯拉财报电话会议

6. X（推特）推文

7. 辰韬资本《端到端自动驾驶行业研究报告》

8. 大刘科普「最强」自动驾驶如何炼成？特斯拉FSD进化史：超深度解读

9. 甲子光年《2024自动驾驶行业研究报告：”端到端“渐行渐近》

10. 太平洋证券《汽车行业深度报告：从萝卜快跑Robotaxi看特斯拉的AI时刻》

11. 中泰证券《电子行业｜AI全视角-科技大厂财报系列：特斯拉24Q2业绩解读》

12. 华鑫证券《智能驾驶行业深度报告：从特斯拉视角，看智能驾驶研究框架》

13. 华金证券《华金证券-智能驾驶系列报告-二-：特斯拉智能驾驶方案简剖》

14. 开源证券研究所《智能汽车专题报告：算法进阶，自动驾驶迎来端到端时代》

15. 国投证券《汽车行业2024年智驾中期策略：特斯拉打开智驾技术新高度，降本是国内产业链首要目标》

16. Guan, Yanchen, et al. "World models for autonomous driving: An initial survey." IEEE Transactions on Intelligent Vehicles (2024).

17. Li, Xin, et al. "Towards knowledge-driven autonomous driving."arXiv preprint arXiv:2312.04316 (2023).

18. Guan, Yanchen, et al. "World models for autonomous driving: An initial survey." IEEE Transactions on Intelligent Vehicles (2024).

19. Hu, Yihan, et al. "Planning-oriented autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

20. Chib, Pranav Singh, and Pravendra Singh. "Recent advancements in end-to-end autonomous driving using deep learning: A survey." IEEE Transactions on Intelligent Vehicles (2023).

编辑/Somer

來源：騰訊科技
作者：郭曉靜

在2022的Q4業績會議上，馬斯克曾自信地宣稱在自動駕駛領域特斯拉處於遙遙領先的絕對第一，「拿望遠鏡都找不到第二名」，彼時 $特斯拉(TSLA.US)$ 的自動駕駛已經跳票6年，《華爾街日報》委婉地表示不再相信馬斯克……

一年後，特斯拉在2024年初開始在一定範圍內推送FSD V12，並於同年3月將FSD Beta改名爲FSD Supervised，特斯拉智駕團隊負責人AShok Elluswamy在X（推特）上發文稱基於「端到端」（「end-to-end」）的FSD V12在數月的訓練時間內，已經完全超過了數年積累的V11。

同時FSD V12的推出很快得到了業界的積極回應，英偉達CEO黃仁勳在接受外媒採訪時高度評價「特斯拉在自動駕駛方面遙遙領先。特斯拉第12版全自動駕駛汽車真正具有革命性的一點是，它是一個端到端的生成模型。」；

Michael Dell （戴爾科技集團董事長兼CEO）在X上表示「全新的V12版本令人印象深刻，它就像人類司機一樣」；

Brad Porter（曾任Scale AI首席技術官、亞馬遜機器人副總裁）同樣稱「FSD V12就像是ChatGPT 3.5到來的時刻一樣，它並不完美，但令人印象深刻，你可以看出這是完全不同的東西，迫不及待地期待它進化到GPT4那樣」；

就連曾經對特斯拉「劍拔弩張」的小鵬汽車董事長何小鵬，在試駕完FSDV12後也在微博上評價「FSD V12.3.6表現極好，要向其學習」，並且他還表示「今年的FSD和以前的Tesla自動駕駛從能力上完全是兩個，我非常讚賞」。

那究竟是什麼樣的改動，讓FSD V12如醍醐灌頂般在短短几個月的時間就超越了過去數年的積累？這一切都要歸因於「端到端」的加入，而要想系統地了解特斯拉FSD V12前後版本翻天覆地的變化，則要從自動駕駛的基本框架以及FSD V12的前世講起。

爲了讓大家讀完本文都能有所收穫，我力爭降維到小學生模式，在保證專業度的同時增加可讀性，用通俗易懂的表達將自動駕駛的基本框架概念、FSD V12的前世今生講清楚，讓沒有任何專業背景知識的小學生也能輕鬆搞懂。

讀完本文後，你會對當下自動駕駛行業最火且達成共識的「端到端」以及曾經爆火的「模塊化」、「BEV鳥瞰圖 +Transformer」、「Occupancy 佔用網絡」等相關概念有清晰的認知。除此之外，你還會了解特斯拉V12爲何是突破性的、爲何自動駕駛的ChatGPT時刻即將到來，同時你也會對當下自動駕駛行業發展到哪一步形成初步的判斷。

文章有些長，但耐心讀完後，一定有所收穫。

01 初識自動駕駛：模塊化到端到端

1.1 自動駕駛分級

在正式開始前，我們需要對自動駕駛的整體框架有一個了解：目前被國內外廣泛接受的自動駕駛分級標準是SAE（國際汽車工程學會）的分級，從L0-L5共6個級別，隨着級別的上升，車輛對駕駛員手動應急接管的需求越來越小，自動駕駛系統的功能也越來越齊全，到了L4、L5級別後便不再需要駕駛員接管駕駛（理論上在這兩個階段，方向盤、踏板都無需安裝）。

L0級：無自動化

L1級：「部分解放司機雙腳」輔助駕駛

L2級：「部分解放司機雙手」（部分自動化）當前發展階段

L3級：「部分解放司機雙眼」（有條件自動化）當前發展階段

L4級：「解放司機大腦」（高度自動化）

L5級：「無人」（完全自動化）

1.2 自動駕駛設計理念：模塊化 vs 端到端

了解清楚自動駕駛分級的基本框架後，我們便需要進一步了解車輛是怎樣實現自動駕駛的。自動駕駛的設計理念可以分爲兩類，分別是傳統的模塊化設計和端到端設計。在2023年特斯拉的標杆作用下，現在端到端自動駕駛已經逐漸成爲了行業和學術界的共識。（2023 年 CVPR 最佳論文獎的 UniAD便採用的端到端，體現學術界對該設計理念的認同；自動駕駛行業中，繼特斯拉後，華爲、理想、小鵬、蔚來等多家智駕公司紛紛跟進端到端，代表業界對該理念的認同。）

1.2.1模塊化

在比較兩個設計理念的優劣前，我們首先來拆解下什麼是模塊化設計：它包含感知、決策規劃、執行控制三大模塊（如圖4所示），研究人員可以通過調試每個模塊的參數來使車輛適應各種場景。

感知模塊：負責收集和解釋車輛周圍環境的信息，通過各種傳感器（比如攝像頭、激光雷達、雷達、毫米波等）檢測和識別周圍物體（比如其他交通參與者、信號燈、道路標誌）——感知模塊是自動駕駛的核心，在端到端上車之前大部分的技術迭代都集中在感知模塊，核心目的就是讓汽車的感知水平達到人類水平，讓你的汽車能夠像你在開車時一樣注意到紅燈、加塞車輛甚至是馬路上的一條狗。

注：在給車輛提供感知信息的部分還包括定位部分，比如有些企業會使用高精地圖來確定車輛在環境中的精確位置（但高精地圖成本高、且精確數據的獲取有很大難度，不易推廣）。

決策規劃模塊：基於感知模塊輸出的結果，預測其他交通參與者的行爲和意圖，並制定車輛的行駛策略，確保車輛能到安全、高效、舒適地到達目的地。這個模塊就像是車輛的大腦（前額葉部分），隨時根據已輸入的代碼規則（Rule based）思考着最佳的行駛路徑、何時超車/變道、面對加塞車輛時是讓還是不讓、在感受到紅綠燈時是走還是不走、在看到外賣小哥佔道行駛時是超還是不超等問題。

——在這部分車輛是基於代碼規則來進行決策的，舉一個最簡單的例子，車輛的代碼寫入紅燈停綠燈行、見到行人要讓行的指令，那麼在對應的場景下，我們的汽車便會根據提前寫好的代碼規則進行決策規劃，但如果出現沒有寫進規則的情況，那麼我們的車便不知該如何應對了。

控制模塊：執行決策模塊輸出的行駛策略，控制車輛的油門、剎車和轉向。如果說決策模塊是大腦軍師的話，那麼控制模塊就是聽從軍令的士兵，「指哪打哪」。

模塊化的優缺點

優點：可解釋、可驗證、易調試

因爲每個模塊都是相對獨立的，所以當我們的車輛出現問題時我們可以回溯究竟是哪個模塊出現了問題；在出現問題後，我們只需要在原有代碼規則的基礎上調整對應的參數即可，簡單來說「比如我們自動駕駛的車輛在面對其他車輛加塞時，剎車過猛，那我們只需要調整加塞情況下，車輛的速度、加速度該如何變化即可」。

缺點：傳遞過程中信息損耗、任務多且散導致低效、存在複合誤差、規則難以窮盡導致構建和維護成本高。

信息在傳遞過程中存在損耗：傳感器的信息從進入感知模塊再到控制模塊輸出，中間經歷了多個環節，信息在傳遞過程中除了效率變低以外不可避免地會有信息的損耗；舉一個簡單的例子比如在傳話遊戲中，第一個人說的是「你好」，經過中間幾個人的傳遞後，到最後一個人那裏可能變成風馬牛不相及的「李吼」。

規則難以窮盡導致構建和維護成本高：大家如果理解了模塊化的基本邏輯後，便知道模塊化是基於規則的，車輛在道路上做的所有決策背後都是一條一條的規則，而規則的背後則是一條一條的代碼，程序員提前將道路上的規則以代碼的形式寫好，車輛在對應情況的時候便根據寫好的規則遍歷所有可能選出最優解，進行決策進而採取相應的行爲。

說到這裏大家可能覺得沒什麼，我們直接把類似於紅燈停、綠燈行的這些規則都寫進去不就好了，然而工程師很難窮盡路上的所有情況，因爲真實的物理世界是一直在變化的，有無數種排列組合，我們只能預期到常規的事情並把它寫進規則中，但是小概率的極端事件也是會發生的（比如道路上突然出現一隻猴子在和人打架），所以依靠代碼堆疊規則到最後只能苦嘆一聲「人力有時窮」。

1.2.2 端到端

講完了模塊化，我們接下來就看下目前行業最認可的端到端究竟是怎麼一回事兒。所謂端到端（End-to-End）就是信息一頭進入一頭輸出，中間沒有各個模塊傳輸來傳輸去，一站式搞定。

也就是基於統一的神經網絡從原始傳感器數據輸入直接到控制指令輸出的連續學習與決策過程，過程中不涉及任何顯式的中間表示或人爲設計的模塊，不再需要工程師人爲寫無窮盡的代碼了，除此之外；其另一個核心理念就是無損的信息傳遞（原來可能是多人傳話遊戲，端到端就變成了你說我聽）。

我列舉兩個例子來給大家講解模塊化和端到端的區別：模塊化設計理念下的車輛就好像是在駕校學車的、沒有自主意識、且不會主動模仿學習的新手司機，教練說做什麼他就做什麼（編寫代碼規則），教練跟它說紅燈要停下來、遇到行人要禮讓，它就按照教練的說法做，如果遇到教練沒說過的事兒，它就愣在那裏不會處理了（武漢「芍蘿蔔」）。

而端到端設計理念下的車輛則是一個擁有自主意識並且會主動模仿學習的新手司機，它會通過觀察別人的駕駛行爲來學習，最開始它就像一個菜鳥一樣，什麼也不會，但是它是個好學的孩子，在給它觀看了成百上千萬的優秀老司機怎麼開車的視頻後，它慢慢就變成了真正的老司機，然後它的表現只能用一個字來形容，那就是「穩」！

資料來源：Li, Xin, et al. Towards knowledge-driven autonomous driving 華鑫證券研究

如圖7所示，基於一條一條代碼規則驅動的模塊化設計理念的車輛，讀到大學就無法再往上進修了，而基於數據驅動（給車輛看的老司機開車的視頻就是所謂的數據）的端到端雖然初期是在小學，但它具備很強的成長性和學習性（強化學習和模仿學習），可以很快地進修到博士。（就像餘承東評價「Fsd下限低，上限高那樣」，但只要你有足夠多的數據，給予它足夠多的老司機駕駛的視頻，它不便不會停留在低水平太長時間）。

當然，目前圍繞端到端的基本定義仍然存在爭議，「技術原教旨主義者」認爲，市面上很多公司宣傳的「端到端」並不是真正的端到端（比如模塊化的端到端），他們認爲真正的端到端應該是全局端到端，從傳感器輸入到最後控制信號輸出，中間所有步驟都是端到端可導的，可進行全局優化;而「實用主義者」則認爲只要基本原理符合，能讓自動駕駛車輛的性能表現提升就可以。

端到端的三大劃分

有的朋友看到這裏可能有些懵，端到端也有不同劃分？是的沒錯，目前端到端主要可以劃分成三類（目前存在多種不同劃分，爲了便於大家理解，本文只列舉英偉達GTC大會的劃分），如圖8所示可以分成顯式端到端、隱式端到端、基於大語言模型的端到端。

資料來源：英偉達GTC大會、開源證券研究所整理

顯式端到端

顯式端到端自動駕駛將原有的算法模塊以神經網絡進行替代，並連接形成端到端算法。該算法包含可見的算法模塊，可以輸出中間結果，當進行故障回溯時可以一定程度上進行白盒化調整。在這個情況下，便不再需要工程師一行一行去敲代碼來撰寫規則了，決策規劃模塊從手寫規則向基於深度學習的模式進行轉變。

看起來有些抽象難懂，我們用大白話來講的話就是端到端了但又沒有完全端到端（也叫做模塊化的端到端），而所謂的白盒其實是相對於黑盒而言的，在後面隱式端到的部分我會用新手司機的例子來展開講，這裏看不懂不要緊可以先行跳過。

獲得2023年CVPR最佳論文的UniAD模型就是採用的顯式端到端，如下圖所示，我們能夠明顯觀察到各個感知、預測規劃等模塊採用了向量的方式進行連接。

注：顯示端到端需要結合隱式端到端一起理解，不要孤立開；顯式端

資料來源：Hu, Yihan, et al. Planning-oriented autonomous driving.

隱式端到端

隱式的端到端算法構建整體化的基礎模型，利用海量的傳感器接收的外部環境數據，忽略中間過程，直接監督最終控制信號進行訓練。「技術原教旨主義者」認爲如圖9這樣的傳感器信息一頭進入另一頭直接輸出控制信號的端到端才是真正的端到端，中間沒有任何額外模塊。

前面我們提過顯式端到端，通過比較圖8和圖9，能夠看出明顯的區別就是：隱式一體化的全局端到端中間沒有各個模塊，只有神經網絡存在（傳感器就是它觀看世界的方式，中間的端到端系統就是它的完整的大腦，方向盤、剎車油門就是它的四肢）；而顯式端到端不同的地方在於它把中間完整的大腦按照模塊化的方式給分開了，雖然它不再需要編寫代碼去學習各種各樣的規則，已經逐漸可以通過觀看老司機視頻的方式學習，但是，它依舊是分模塊去做的，所以批評的聲音會認爲其不是真正意義上的端到端。

但這樣做也有它的好處，我們在前面提到過顯式端到端在一定程度上是白盒的，這是因爲當我們的車輛通過學習湧現出一些我們不期望的糟糕行爲時，我們可以回溯究竟是哪個模塊的端到端出現了問題，而作爲黑盒模型的隱式端到端則無從下手，因爲它是完全一體化的，創造它的人也不知道它爲什麼會這樣做（這就是大家老在網上聽到的黑盒的大概意思）。

資料來源: PS Chib, et al. Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey

生成式AI大模型的端到端

ChatGPT爲自動駕駛帶來了極大的啓發。它運用無需標註且成本低廉的海量數據進行訓練，還具備人機互動以及回答問題的功能。自動駕駛可以效仿這種人機互動的模式，輸入環境方面的問題，它直接輸出駕駛決策，通過基於大語言模型的端到端來完成這些任務的訓練運算。

AI大模型的主要作用有兩點，一是可以低成本生成海量接近真實的、包含Corner Case（自動駕駛過程中很少出現但可能導致危險的異常情況）的多樣化訓練視頻數據，二是採用強化學習的方法來達到端到端的效果，從視頻感知到直接輸出駕駛決策。其核心就是模型可以通過自然數據自己推理學習因果，不再需要標註，模型整體的泛化能力得到大幅度提升，類似ChatGPT那樣，以自回歸的方式從上一個場景預測下一個場景。

讓我們用更簡單的話來講一下大模型對於端到端的重要性：

目前自動駕駛數據庫的價值極低：通常包括兩種數據，一種是正常行駛情況，千篇一律，佔公開數據約 90%，如特斯拉影子模式。馬斯克承認這種數據價值較低，有效性可能僅萬分之一甚至更低。另一種就是事故數據即錯誤示範。用其做端到端訓練，要麼只能適應有限工況，要麼會出錯。端到端是黑盒子，無法解釋、只有相關性，需高質量、多樣化的數據，訓練結果才可能好點。

端到端需先解決數據問題，靠外界採集不太可行，因爲成本高、效率低且缺乏多樣化和交互（自車與其他車輛、環境的交互，需昂貴人工標註），因此引入生成式AI大模型，它能製造海量多樣化的數據，減少人工標註，降低成本。

除此之外大語言模型端到端的核心邏輯是預測未來發展，本質是習得因果關係。當前神經網絡與人類有差距，神經網絡是概率輸出，知其然而不知其所以然；人類可通過觀察及無監督交互學習物理世界運行常識，能判斷合理與不可能，通過少量試驗學習新技能並預測自身行爲後果。而生成式AI端到端大模型就是希望神經網絡也具備像人類這樣舉一反三的能力。

舉個例子來說：我們人類司機肯定會遇到一些沒有見過但可能有危險的情況，雖然沒有經歷過，但是通過往的經驗我們可以推斷出這個情況做什麼才能保住小命（比如我們可能都沒有經歷過路上出現一個霸王龍的現象，但當霸王龍真的出現後，我們肯定會抓緊開車逃跑），通過過往經驗推測並判斷行爲合理與否，這就是我們希望大語言模型端到端做的事情，希望我們的車輛真正地像人一樣開車。

資料來源: Guan, Yanchen, et al. "World models for autonomous driving: An initial survey."

目前由於特斯拉還未召開第三次AI Day，所以我們暫時不清楚特斯拉端到端的具體網絡架構，但是根據特斯拉自動駕駛負責人Ashok在2023CVPR以及馬斯克本人的一些回覆，可以推測特斯拉的端到端模型很有可能是基於大語言模型的端到端（World model）。（期待特斯拉的第三次AI Day）

端到端的優缺點

優點：無損的信息傳遞、完全由數據驅動、具備學習能力更具範化性

隨着感知、決策規劃端到端自動駕駛路徑逐漸清晰，端到端爲邁向L4無人駕駛提供了想象空間。

缺點：不可解釋、參數過大，算力不足、幻覺問題

如果你用過ChatGPT之類的大語言模型，那你就會知道有些時候它會一本正經的胡說八道（也就是幻覺問題），聊天時胡說八道無關痛癢，但是！如果在馬路上，你的車輛一本正經的胡亂開，可是會要人命的！而且因爲黑盒問題，你還沒辦法回溯原因所在，這是便是目前端到端急需解決的問題，目前常見的解決方案便是加入安全冗餘。

除此之外，端到端落地同樣還面臨着算力和數據的巨大需求，根據辰韜資本的報告顯示，儘管大部分公司表示 100 張大算力 GPU 可以支持一次端到端模型的訓練，但這並不意味着端到端進入量產階段只需要這一數量級的訓練資源。大部分研發端到端自動駕駛的公司目前的訓練算力規模在千卡級別，隨着端到端逐漸走向大模型，訓練算力將顯得捉襟見肘。而算力的背後就是錢（並且由於美國禁止向中國實體出售高端芯片使這一困境加劇），就像理想汽車的郎咸朋說的那樣，「智能駕駛未來一年10億美元只是入場券」。

講到這裏，我們便把自動駕駛最基礎的一些框架性內容講完了（因爲篇幅有限，故只包含了一小部分），從歷史的眼光回頭看，自動駕駛的進步基本上就是沿着特斯拉既定的路線往前走的（這中間各個廠商會在其原有路線的基礎上有所創新，但本質並未偏離），從某種程度上來說，或許能跟住特斯拉本身就是一種能力。接下來，我將會從模塊化和端到端的發展給大家展開講一下特斯拉FSD V12的前世今生。

02 特斯拉FSD的前世今生，能跟住特斯拉本身就是一種能力？

2.1特斯拉FSD V12的前世

特斯拉智能駕駛的發展史在一定程度上反應了自動駕駛行業最重要的一條路線的發展史，在2014年時，特斯拉發佈第一代硬件Hardware 1.0，軟硬件均由Mobileye（一家以色列的汽車科技公司）提供，然而整體合作隨着2016年特斯拉「全球首宗自動駕駛致命事故」而結束（這裏的核心原因在於Mobileye提供的是封閉黑盒方案，特斯拉不能修改其中的算法，而且還不能與Mobileye共享車輛數據）。

資料來源：特斯拉官網、國信證券研究所

2016到2019則是特斯拉的自研過渡期。在2019年Hardware升級到了3.0版本，並且採用第一代自主研發的FSD1.0芯片，增加了影子模式功能，幫助特斯拉收集大量的自動駕駛數據，爲其純視覺路線打下基礎。

2019到2024FSD V12.0大範圍推廣前，是其全面自研時期，2019年算法架構向神經網絡升級提出HydraNet九頭蛇算法，2020開始聚焦純視覺-，並在2021和2022的AI Day上接連公佈了BEV和Occupancy網絡架構，在北美驗證了BEV +Transformer+Occupancy的感知框架，國內廠商開始紛紛跟進（這中間差了1-2年左右）。

我們在前面提到過，模塊化智能駕駛設計理念中最核心的部分就是感知模塊，也就是我們要如何讓車輛更好地理解傳感器（攝像頭、雷達、毫米波等）輸入的信息，而上面所提的一堆概念以及特斯拉在FSD V12版本之前做的大部分事情都是在讓感知模塊變得更智能，從某種程度上可以理解爲讓感知模塊走向端到端，因爲要想讓車能夠自動駕駛，第一步就是讓它真實客觀地感受這動態變化的物理世界。

其次才是給它制定行駛規則（決策規劃模塊），而決策規劃模塊較爲傳統，採用蒙特卡洛樹搜索+神經網絡的方案（類似谷歌AlphaGo下圍棋的方案），快速遍歷所有可能性找出勝率最高的那條路徑，其中包含了大量人爲輸入的代碼規則，即根據大量預先設定的人爲規則來在道路中設想並選擇最佳的軌跡（遵守交規且不碰撞其他交通參與者），而控制模塊更多是油門剎車方向盤等硬件層面的事情。

因爲感知模塊是進步變化最核心的部分，接下來我會盡量用通俗易懂的話講解其中包含的這些概念的基本作用，以及它們分別解決了什麼問題（因爲文字篇幅有些，所以有所精簡）。

2.1.1特斯拉FSD感知側的進化

2017年，之前在斯坦福任教的Andrej Karpathy加入特斯拉，標誌着特斯拉感知側端到端的進化拉開序幕：

（1）HydraNet九頭蛇算法—2021年特斯拉AI DAY公佈

HydraNet是特斯拉開發的一種複雜的神經網絡，用來幫助汽車「看見」和「理解」周圍的環境。HydraNet這個名字來源於希臘神話中的九頭蛇「Hydra」。這個網絡系統也像多頭蛇一樣，有多個「頭」可以同時處理不同的任務。這些任務包括物體檢測、紅綠燈識別、車道預測等。而它的三大優點就是特徵共享、任務解耦、能緩存特徵更高效微調。

特徵共享：通俗來講就是基於HydraNet的主幹網絡backbone處理最基本的信息，然後再把處理過的信息共享給它的不同小腦袋（head），好處在於每個「小腦袋」不用重複處理相同的信息，可以更高效地完成各自的任務。

任務解耦：將特定任務與主幹分離，能夠單獨微調任務;每個「小腦袋」專門負責一種任務，比如一個負責識別車道線，另一個負責識別行人，等等。這些任務之間互不干擾，各自獨立完成。

能緩存特徵更高效微調：通過限制信息流動的複雜度，確保只有最重要的信息傳遞給各個「小腦袋」，這個「瓶頸」部分能夠緩存重要特徵，並加速微調過程。

（2）BEV（Birds’Eye View鳥瞰視角+Transformer）—2021年特斯拉AI DAY公佈

平面圖像走向3D鳥瞰空間

HydraNet幫自動駕駛的車輛完成了識別的工作，而對於車輛周圍環境的感知則由BEV（Birds’Eye View鳥瞰視角）+ Transformer完成，兩者的結合幫助特斯拉完成了將八個攝像頭捕捉到的2維平面圖片轉換爲3D向量空間的工作（也可以由激光雷達完成，但激光雷達的成本要遠遠高於攝像頭）。

鳥瞰圖是一種從上往下俯視的視角，就像你在高空中俯視地面一樣。特斯拉的自動駕駛系統使用這種視角來幫助汽車理解周圍的環境。通過將多個攝像頭拍攝到的圖像拼接在一起，系統可以生成一個完整的道路和周圍環境的平面圖（2D）。

而Transformer能將來自不同攝像頭和傳感器的數據有效融合，像一個超級聰明的拼圖高手，將不同角度的圖像拼成一個完整的環境視圖。將這些平面視角數據融合成一個統一的3D視角的鳥瞰圖景。這樣，系統可以全面、準確地理解周圍的環境（如圖14所示）。

而且BEV+Transformer可以消除遮擋和重疊，實現「局部」端到端優化，感知和預測都在同一個空間進行，輸出「並行」結果。

（3）Occupancy Network佔用網絡——2022年特斯拉AI DAY公佈

Occupancy佔用網絡的加入讓BEV從2D變成了真正意義上的3D（如圖16所示），並且在加入時間流信息（基於光流法）之後，完成了由3D向4D的過度。

Occupancy Network佔用網絡引入了高度信息，實現了真正的3D感知。在之前的版本中，車輛可以識別訓練數據集中出現的物體，但對於未見過的物體則無法識別，而且即使認識該物體，在BEV中也只能判斷其佔據一定程度的方塊面積，而無法獲取實際形狀。Occupancy網絡通過將車輛周圍的3D空間劃分成許多小方塊（體素），實現了對每個體素是否被佔據的判斷（其核心任務不在於識別是什麼，而是在於判斷每一個體素中是否有東西被佔據）。

這就像你在迷霧中開車，雖然看不清楚前面是什麼，但你大概知道前面有障礙物，你需要繞過去。

Occupancy Network也是通過Transformer來實現的，最終輸出Occupancy Volume（物體所佔據的體積）和Occupancy flow（時間流）。也就是附近的物體佔據了多大的體積，而時間流則是通過光流法來判斷的。

光流法假設構成物體的像素亮度恒定且時間連續，通過對比連續兩幀圖像中的像素位置變化，最終帶來了4D投影信息。

（4）特斯拉引領感知技術收斂，國內頭部廠商陸續跟隨

大家讀到這裏可能沒有很直接的觸感，但我給大家列舉幾個直觀數據

2021年FSD V9，第一屆AI Day公佈BEV網絡，國內2023年BEV架構開始上車。
2022年第二屆AI Day特斯拉公佈Occupancy Network佔用網絡，2023-2024年國內Occupancy佔用網絡開始上車。
2023年特斯拉宣佈FSD V12採用端到端技術，2024年國內廠商紛紛跟進（採用模塊化的端到端）。

資料來源：騰訊科技涵清整理繪製

BEV+Transformer解決了自動駕駛車輛對高精地圖依賴的問題：高精地圖和我們日常用的高德、百度地圖不一樣（如圖20所示），它精確到厘米級別並且包括更多數據維度（道路、車道、高架物體、防護欄、樹、道路邊緣類型、路邊地標等數據信息）。它的成本是很高的，需要時時刻刻保證地圖厘米級別的精確性，然而道路的信息總是會有變化的（比如臨時施工），所以就需要長時間進行採集測繪工作。而想依靠高精地圖實現所有城市場景的自動駕駛，是不現實的。大家現在應該可以在一定程度上理解BEV帶來的貢獻了（注：特斯拉Lane神經網絡同樣是擺脫高精地圖的關鍵算法，由於篇幅限制，這裏不做過多闡述）

Occupancy Network佔用網絡解決障礙物識別率低的問題：將識別的物體變成4D，無論車輛周圍有什麼東西，無論它認識與否，它都可以將其識別出來，避免碰撞問題。而在此之前，車輛只能識別訓練數據集中出現過的物體。Occupancy Network佔用網絡一定程度上帶領自動駕駛上實現了依靠神經網絡的感知側端到端，意義重大。

2.2特斯拉FSD V12的今生

在文章開頭我們提到：特斯拉智駕團隊負責人AShok Elluswamy在X（推特）上發文稱基於「端到端」（「end-to-end」）的FSD V12在數月的訓練時間內，已經完全超過了數年積累的V11。

再結合業內一衆大佬對FSD V12的高度肯定，可以看出FSD V12和V11可以說是兩個東西，因此我以V12爲分界線將其分爲前世今生。

根據表1可以看出自從，FSD V12上車之後，其迭代速度遠遠快於之前，30多萬行的C++代碼縮減到幾千行，可以在社交媒體上看到消費者、從業者都頻繁表示特斯拉FSD V12的表現更像人了。

表1.FSD迭代版本資料來源：特斯拉AI Day、馬斯克推特、中泰證券，騰訊科技涵清整理繪製

特斯拉究竟是如何實現的蛻變我們不得而知，但是從AShok Elluswamy在2023 CVPR的演講上或許可以推斷其端到端的模型很有可能是在原有的Occupancy的基礎上構建的。「Occupancy模型實際上具有非常豐富的特徵，能夠捕捉到我們周圍發生的許多事情。整個網絡很大一部分就是在構建模型特徵。」

從整體思路來看，國內模塊化的端到端可能和特斯拉構建的大模型端到端存在一定差別。

由於前文已經大致講過什麼是端到端，因此我們這裏不再過多贅述，接下來我想要跟大家聊下爲什麼說在這場自動駕駛的競賽中，特斯拉目前是處於領先的位置，我們可以通過客觀數據來進行對比。

開啓端到端時代後，車企端到端的智駕水平主要由三大因素決定：海量的高質量行車數據、大規模的算力儲備、端到端模型本身，與ChatGPT類似，端到端自動駕駛也遵循着海量數據×大算力的暴力美學，在這種暴力輸入的加持下，可能突然湧現出令人驚豔的表現。

由於不知道特斯拉是如何實現其端到端的，所以我們這裏只討論數據和算力

2.2.1特斯拉構建的算力壁壘

FSD的發展史可以說是其算力積累的發展史，2024年初，馬斯克在X（原推特）上表示算力制約了FSD功能的迭代，而3月開始，馬斯克表示算力不再是問題了。

Dojo芯片投入量產後，Tesla由原先A100集群不到5EFLOPS的算力規模迅速提升到全球算力前5水平，並有望於今年10月達到100EFLOPS的算力規模，約30萬張A100的水平。

再對比國內廠商的算力儲備（如圖24所示），可以看到在各種現實因素限制下，中美智能駕駛算力儲備方面的差距還是較爲明顯的，國內廠商任重道遠。

資料來源：汽車之心、公開資料、甲子光年智庫，由騰訊科技涵清整理繪製

當然算力的背後還意味着巨大的資金投入，馬斯克在X（原推特）上表示今年將在自動駕駛領域投資超100億美元，也許真像理想汽車智能駕駛副總裁郎咸朋說的那樣，「未來一年10億美元只是入場券」。

2.2.2特斯拉的高質量數據

端到端的智能駕駛就像一個潛力極高的小天才，你需要給它投餵大量高質量的老司機駕駛視頻，才能讓它快速地成長成開車領域的博士生，而這又是一個大力出奇跡的過程。

馬斯克在業績會中提到訓練模型所需的數據：「100萬個視頻 Case 訓練，勉強夠用；200萬個，稍好一些；300萬個，就會感到Wow；到了1000 萬個，就變得難以置信了。」而訓練仍需要優質的人類駕駛行爲數據，得益於特斯拉自身的影子模式，數百萬輛量產的車輛可以幫助特斯拉收集數據，並且特斯拉在2022AI Day時便公佈其建立了全面的數據訓練流程：涵蓋了數據採集、模擬仿真、自動標註、模型訓練和部署等環節。截至2024年4月6日，FSD用戶的累計行駛里程已超10億英里。而國內任何一家廠商用戶的累積行駛里程都較其相差甚遠。

而數據質量和規模要比參數更能決定模型的表現，Andrej Karpathy曾經表示過特斯拉自動駕駛部門將3/4的精力用在採集、清洗、分類、標註高質量數據上，只有1/4用於算法探索和模型創建。由此可見數據的重要性。

特斯拉正一步步探索自動駕駛的「無人區」，將規模和能力推向極致。

03 結語

當然，最終效果還是要看車輛的實際上路表現。特斯拉 V12 運行的區域主要集中在美國，而那裏整體的道路交通狀況較好，不像國內，行人、電動車隨時可能突然竄到馬路上。不過從技術角度而言，一個能在美國熟練開車的人，沒道理到中國就不會開了。何況學習能力是其核心特點之一，或許初步落地時表現不如在美國本土那般出色，但參考FSD V12.5 之前的迭代時間，可能半年到一年後它就能適應中國的道路情況了。

這對國內廠商的影響頗爲重大，就看衆多智駕企業將如何應對特斯拉這個已在美國得到驗證的 FSD V12 了。

參考資料：

1. Mobileye官方資料

2. 2021 Tesla AI Day

3. 2022 Tesla AI Day

4. 特斯拉官方

5. 特斯拉業績電話會議

6. X（推特）推文

7. 辰韜資本《端到端自動駕駛行業研究報告》

8. 大劉科普「最強」自動駕駛如何煉成？特斯拉FSD進化史：超深度解讀

9. 甲子光年《2024自動駕駛行業研究報告：”端到端“漸行漸近》

10. 太平洋證券《汽車行業深度報告：從蘿蔔快跑Robotaxi看特斯拉的AI時刻》

11. 中泰證券《電子行業｜AI全視角-科技大廠業績系列：特斯拉24Q2業績解讀》

12. 華鑫證券《智能駕駛行業深度報告：從特斯拉視角，看智能駕駛研究框架》

13. 華金證券《華金證券-智能駕駛系列報告-二-：特斯拉智能駕駛方案簡剖》

14. 開源證券研究所《智能汽車專題報告：算法進階，自動駕駛迎來端到端時代》

15. 國投證券《汽車行業2024年智駕中期策略：特斯拉打開智駕技術新高度，降本是國內產業鏈首要目標》