特斯拉大裁員後的豪賭！FSD v12價值幾何？

来源：晚点LatePost

裁员 1 万多人、大幅缩减重要项目 4680 电池团队、负责三电系统的高级副总裁等高管离职……特斯拉 CEO 埃隆·马斯克在 4 月 15 日发起的大调整，只是一个序幕。

之后半个月，特斯拉持续裁撤曾经的重点项目：4680 电池项目继续裁员、北美的超级充电桩团队完全解散、9000 吨以上一体压铸机项目被叫停，相关高管大批离职。接下来的 6 月，特斯拉还会在加州和得州两地裁员超过 6000 人。

马斯克的新赌注是全自动驾驶。无人出租车（Robotaxi）项目被拔到最高优先级。马斯克宣布将在 8 月 8 日发布产品，今年投入百亿美元采购 GPU、研发车载芯片，用于改进自动驾驶系统。他曾多次说过，只要持续迭代这套系统，就会实现无人驾驶，让特斯拉成为 10 万亿美元市值公司。

在特斯拉的第二大市场中国，马斯克也期望用这套系统翻盘。4 月底，马斯克到访中国，被政府领导接见。不久后，他在内部信中说，特斯拉已在中国获得测试部分辅助驾驶系统的许可。

今年开始大面积推送的 FSD v12 自动驾驶系统确实展现出一些不同寻常的潜力。车主的反馈都很接近：“就像人开车一样”，跟上一代相比有进步，狭路会车、超车更从容。

特斯拉 FSD v12 从容应对复杂路况。图片来自 X@Rebellionair3

自动驾驶公司元戎启行 CEO 周光今年 3 月在美国体验 FSD v12 后，承认还是低估了它的能力：“去之前我认为可能是 80 分的东西，但实际做到了 90 分。”

一家国内一线新能源企业负责人体验后相信，特斯拉的自动驾驶会有革命性突破。竞争对手们不敢错过，仅 4 月底北京车展前后，小鹏、华为、长城、商汤绝影等公司宣布将推出类似 FSD v12 的自动驾驶系统。同期，软银、英伟达和微软用 10.8 亿美元投资与特斯拉路线相同的英国自动驾驶公司 Wayve。

沿着特斯拉的路线，一场新的自动驾驶竞赛正在开启。这一次不只要解决技术难题，还是一场资源竞赛。来中国当天，马斯克在社交媒体上划出入局门槛：“任何公司，如果算力投入达不到百亿美元 ...... 就无法参与这一轮竞争。”

原理：砍掉 30 万行代码，让数据决定车怎么开

2000 年代，DARPA 在沙漠中举办的 3 场无人车挑战赛，是现代无人驾驶技术研发的源头。Google 招揽了优胜者，趟出一条可行的方案，将自动驾驶拆成多个环节：

用激光雷达、摄像头等传感器收集车辆周围环境数据，交给依赖人工标注数据训练出的模型，识别出常见的重要目标和各种障碍物（感知模块），再配合高精地图，让系统了解道路会怎么变化，最后依赖工程师用代码写成的规则决定车怎么开（预测、规划模块）。

最初，特斯拉也按照 Google 开辟的路径去做自动驾驶，为了节省成本和迅速扩大使用范围，他们开发依赖摄像头，而不是昂贵的激光雷达和高精地图的方案。推出 v12 前，特斯拉的自动驾驶系统工作流程大概是：

负责感知的视觉模块先工作，处理摄像头等传感器捕捉的路况数据，识别出路上有什么东西，大概怎么分布，哪些是动的，哪些是不动的，哪些是车道线，可以行车的区域有哪些等等。
然后是预测规划控制模块，调用感知模型处理过的信息，预测场景中人、车等动态目标接下来几秒如何行动，结合模型和工程师提前写入的规则，规划安全的行驶路线，再控制方向盘、加速或刹车踏板，照路线行驶。

特斯拉在 2021 年 AI Day 上公布的 FSD 系统架构。图片来自特斯拉

为了尽可能应对路上遇到的各种情况，特斯拉数百名工程师写了 30 万行 C++ 代码制定规则——相当于早期 Linux 操作系统代码量的 1.7 倍。

这不是人学会开车的方式，人不需要认出一条路上可能出现的大量物体到底是什么，也不需要为每个复杂场景提前制定各种规则，就能开车上路。

这样做出来的自动驾驶系统，很难保证绝对安全。真实世界千变万化，再多的工程师也难以穷尽。现在商业化的无人出租车，只能在有限区域运营，车内没有安全员，只不过是运营方把他们转移到云端，远程盯着。

直到 2021 年，在路上遇到一排交通锥，Google 无人驾驶子公司 Waymo 的无人车还是有可能停下来拒绝行驶。此时 Google 已经带着整个行业投入上千亿美元。一批公司在那两年关停已经耗资数十亿美元的无人驾驶项目。

“付出 20% 的努力，就能获得 80% 的能力。” 小鹏原自动驾驶 AI 负责人刘兰个川去年在一场学术活动上说，传统自动驾驶方案开发简单，但继续提升困难。现在他加入英伟达智能汽车团队。

特斯拉 FSD v12 学开车更像人。最大的改变是用了 “端到端” 架构：一端输入摄像头等传感器获得的数据，另一端直接输出车该怎么开。

训练这套系统时，机器从大量车辆行驶视频和人类司机在不同环境下打方向盘、踩加速踏板的数据中学习怎么开车。

在 FSD v12 中，特斯拉工程师们写的规则几乎全被消灭，30 万行规则代码仅剩 2000 多行，不到原来的 1%。

端到端自动驾驶系统学开车的方式，也只是有一点像人，并没有系统能像人类一样真的理解世界。所以人学几天，就能开车上路安全驾驶，但 FSD 要看海量的视频学习。马斯克去年在一次财报会上谈到数据有多重要：“用 100 万个视频 case 训练，勉强够用；200 万个，稍好一些；300 万个，就会感到 Wow；到了 1000 万个，就变得难以置信了。”

“传统自动驾驶系统就像一个漏斗，信息一层层丢失。” 一位自动驾驶算法工程师说，传统方案的感知阶段，工程师们通常会设置 “白名单”，重点识别行人、车辆、车道线、红绿灯等重要目标，以节省算力。到了预测规划环节，工程师会提前设定，根据需求调用感知模块输出的信息完成工作，信息会再一次折损。因此传统方案很难像人一样用充分的信息决定怎么开车，要依赖工程师们提前写的规则。

而端到端方案中，摄像头等传感器获得的信息全部传递到决策环节，“信息无损传递，模型可以从感知数据中捕捉更多信息完成决策，提升系统应对各种复杂场景的能力。” 上述自动驾驶算法工程师说，因为是端到端架构，模型的决策也会直接影响感知环节，让它之后捕捉更多人意识不到但对驾驶有帮助的数据。

在许多场景，特斯拉 FSD v12 都有明显提升。一位自动驾驶从业者（知乎 @EatElephant）告诉我们，他体验后感觉到，与 v11 相比，v12 控制车辆的速度和转向 “很丝滑”，“即使坐在后排，路口转弯时几乎感觉不到任何顿挫”。为了保证安全，传统自动驾驶方案行车时，会时不时带下刹车。

他在一篇文章中写道，面对右前方有人骑自行车的场景，“v11 会过度小心，规划出一条非常离谱的大幅绕行路线，v12 从容淡定，绕行幅度接近人类司机的选择，速度控制和果断程度也非常合理。”

那些难以用规则描述的场景，FSD v12 的应对方式有明显进步。他举例，比如遇到路边开着双闪的亚马逊送货卡车，能迅速判断对向无车，立即借道绕行。而传统的方案大多数情况下都会停下来，或者等一段时间才会考虑采取行动。

FSD v12.3 更新推送后，一批车主在 YouTube 上传了车辆从容应对各种复杂的路况的视频，比如晚间穿越拥挤的纽约第五大道，30 分钟全程没怎么碰方向盘。

面对兴奋的车主们，美国公路交通安全管理局在 5 月 6 日发函要求特斯拉详细说明，如何防止车主滥用辅助驾驶系统，比如怎么提醒驾驶员 “把手放在方向盘上”。

基础：最难的几年依然坚持预装硬件、研发芯片、采集数据

2018 年初，特斯拉深陷产能危机、面临生死考验时，马斯克发邮件给 OpenAI 管理层，希望 OpenAI 并入特斯拉，共同研发 “基于大规模神经网络训练的全自动驾驶方案”。

他认为，AI 研发需要巨资，而 OpenAI 需要建立盈利模式才能与巨头抗衡。而特斯拉已经用 Model 3 和其供应链打造了火箭的 “第一级”，如果 OpenAI 能够并入特斯拉，将会加速无人驾驶研发，打造火箭的 “第二级”，特斯拉会因此卖出更多车，OpenAI 也会有足够的收入开展人工智能研究。

马斯克的提议被拒绝，最后退出 OpenAI 董事会。但在此之前，他就已经从 OpenAI 挖来安德烈·卡帕蒂（Andrej Karpathy），负责自动驾驶技术研发，带队训练效果更强的模型。

多位自动驾驶从业者认为，卡帕蒂加入特斯拉是其研发 v12 版端到端自动驾驶模型的开端。

1986 年出生的卡帕蒂，是过去十多年人工智能浪潮的亲历者，也是从中成长起来的人工智能科学家。他 2011 在斯坦福大学读博士期间和导师李飞飞一起完善催生 AlexNet 的 ImageNet 竞赛数据集，在各个学术会议上发表数篇计算机视觉论文，在斯坦福大学开设了第一门深度学习课。博士毕业后，他是最早一批加入 OpenAI 的人。

2017 年 11 月，卡帕蒂发布著名的《软件 2.0》文章，称 “软件吞噬世界，而人工智能为基础的软件 2.0 正在吞噬软件”。那时经过大量数据训练的计算机视觉模型，识别物体的准确率超过人眼。AlphaGo 从数据中学到了击败人类围棋冠军的方法。

他相信，靠着大量数据，人工智能在大部分有价值的垂直领域，“至少在涉及图像 / 视频和声音 / 语音的领域，比你我能想出的任何代码都要好。”

在卡帕蒂到来前，特斯拉已经完成了自动驾驶的数据基建。

用大量数据训练更强的模型，是非常适合特斯拉的技术发展路线。但特斯拉要投入大量资源研发自动驾驶技术，马斯克从不缺乏冒险的决心。

2016 年开始，每一辆出厂的特斯拉汽车都搭载能运行 Autopilot 辅助驾驶系统的硬件，花钱买了软件才能开启功能。到现在也没几个汽车品牌会这么做，更常见的做法是把同一款车分成不同的版本，把搭载自动驾驶硬件车型卖给感兴趣的客户。

标配辅助驾驶的时候，特斯拉启用 “影子模式”（Shadow Mode），就算驾驶员不购买 Autopilot 功能，这套系统也会在后台运行，记录行车数据、规划行车路线。马斯克当时接受采访说，它的作用是证明系统比人可靠，为监管机构批准技术提供数据支撑。

卡帕蒂加入后，影子模式成为特斯拉获得训练模型数据的核心来源——当系统选择的路线与驾驶员的选择有明显偏差时，就会触发数据回传机制，系统会自动记录摄像头捕捉到的数据、车辆行驶数据等，等到连接 WiFi 后上传到特斯拉的服务器中。到 2018 年底，特斯拉就靠这套系统采集 16 亿公里数据，超过现在绝大多数研发自动驾驶技术的车企。

特斯拉的自动驾驶团队把大部分精力放到数据上，搭建了一套数据处理系统，专门分析、筛选收集到的数据，一开始用人、后来绝大部分数据用机器打标签，然后喂给模型，持续改进自动驾驶系统。为了用大量数据训练模型，特斯拉在 2019 年之前，就采购大量 GPU 建设名为 Dojo 的算力中心，并持续扩大，到现在已经积累了等同 3.5 万张 H100 的算力。

2019 年 4 月，特斯拉发布 HW 3.0 硬件，搭载两颗 FSD 第一代芯片，算力达到 144 TOPS，是当时英伟达车载芯片 Xavier 的近 7 倍。和过去一样，不论用户是否购买辅助驾驶系统，特斯拉都这套硬件装到每一辆特斯拉车上，而且免费帮买了辅助驾驶系统的老用户升级。

“不仅让我们能够更快地运行当前的神经网络（模型），更重要的是，它允许我们在车上部署更大、计算成本更高的模型。” 卡帕蒂说。HW 3.0 也是特斯拉现在能大规模推行 FSD v12 系统的基础。

特斯拉搭建这套基础设施的时候，也是它开始量产车辆以来资金最紧张的一段时间。从 2017 年到 2019 年初，特斯拉都深陷 Model 3 产能危机。

到 2019 年 3 月，特斯拉的现金储备只剩 22 亿美元，只够再烧不到半年。《马斯克传》记录，当时马斯克对妻子说，“我们必须筹集到资金，否则就完蛋了。”

马斯克想了几夜后，决定面向投资人办一场活动，即特斯拉 “自动驾驶日”。他告诉华尔街的投资人，无人驾驶汽车未来能帮特斯拉实现巨额盈利，接下来一年多时间会部署 100 万辆无人出租车，重塑人们的日常生活。

没人相信特斯拉的无人驾驶能很快到来。这场活动结束一个多月，特斯拉股价跌了 30%。靠着 Model 3 产能顺利扩大，上海工厂迅速建成，特斯拉才缓了过来。但接下来的 5 年，是特斯拉自动驾驶基础技术进步最快的阶段。

实现：从模拟人眼开始，一步步扩展到整个系统

看视频学开车的道理听起来很简单，但中间需要解决无数问题。

2020 年到 2022 年，特斯拉每年都会公开一版 “感知” 模型，每个版本都朝着模拟 “人眼” 更进一步。

2020 年 2 月，卡帕蒂在一场学术会议上展示了特斯拉训练 48 个神经网络组成的 “多任务模型”HydraNet，可以识别 1000 多个目标，比如汽车、自行车、车道线、学校区域等。

HydraNet 用微软亚洲研究院 2015 年发布的 ResNet 模型当主干，提取车身周边 8 个摄像头所捕捉画面的通用特征，交给不同的算法分支完成不同的任务。这么做可以避免用不同的模型重复从相同的画面提取特征，节省算力。

这是当时学术界和多数开发大型计算机识别系统公司的选择，特斯拉把它做得规模更大，并实现工程化。但这么做有局限。HydraNet 只能从不同角度的摄像头捕捉的画面中各自提取信息，摄像头可能只会捕捉到周边物体的一部分。就像新手司机很难靠后视镜流畅倒车入库一样，自动驾驶系统也很难靠它实现真正的无人驾驶，还得靠各种雷达、高精地图辅助。

不用激光雷达的卡帕蒂团队选择使用一系列算法，将 8 个不同方向的摄像头收集的画面拼成一个 360° 的鸟瞰图（Bird's Eye View，即 BEV）模式，再让模型 “理解世界”，规划行车路线。但想让这套系统效果良好，得尽量保证地面是平的，而且车周围环境要简单，否则系统就难以准确理解不同摄像头看到的图片之间有什么关联。

“当我们用它实现 FSD 时，很快发现达不到预想中的效果。” 安德烈·卡帕蒂在 2021 年特斯拉 AI Day 上说，他介绍了用 Transformer 架构开发的新版模型，能准确地把跨越多个相机的目标拼得更准确、稳定。

上部三个视角是特斯拉车载摄像头拍摄的画面。左下是传统方法拼出来的 BEV 道路图，右下是 Transformer 方法

而且利用 Transformer 架构做成的模型，输出的信息可以直接用到后续的预测规划模块，也为 FSD v12 做成端到端模型打下基础。

与新模型配合，卡帕蒂还分享了一个名叫 “Spatial RNN” 的架构，用视频训练模型时，模型能获得短暂的 “记忆” 能力，理解周围的场景如何随着时间变化，从而具备脑补摄像头视野盲区、实时构建局部地图的能力。

这次技术迭代，让特斯拉的辅助驾驶系统不用高精地图也能把车开好，再一次推高自动驾驶的能力上限，向人眼靠近。

等到 2022 年特斯拉 AI Day 举办时，卡帕蒂已经离开特斯拉。特斯拉的自动驾驶系统继续迭代，继任者阿肖克·埃卢斯瓦米（Ashok Elluswamy）介绍了 “占用网络”（Occupancy Network），在 Transformer 架构基础上引入 “高度” 要素，能把不同角度摄像头捕捉到的画面还原成 3D 场景，计算出一个物体在空间中占用多少点，从而推断出它的形状。

借助 Occupancy Network，特斯拉的自动驾驶系统不用激光雷达，只靠摄像头收集信息，就可以识别出它没有见过的障碍物，被视为 “纯视觉方案” 的胜利。

特斯拉多年研发，终于实现马斯克多年前提出的第一个要求：人靠双眼就可以识别、还原 3D 环境，车靠摄像头也应该可以。

特斯拉 Occupancy Network 识别车辆周围障碍物。图片来自特斯拉 2022 年 AI Day。

在这个过程中，特斯拉还在逐步尝试让神经网络决定车怎么开。在 2021 年的 AI Day 上，特斯拉就展示了用大量数据训练出来的 “神经网络规划模型”，当时只是作为辅助，为最终的规划决策模块提供参考。到 v12 版本，神经网络正式接管预测规划模块，完成端到端拼图。

疑问：自动驾驶现在能不能有 Scaling Laws

FSD v12 距离真正的无人驾驶还有距离。像 ChatGPT 一样，它有闪光时刻，但也常犯错。广受好评的 v12.3 版本上线后，车辆时有撞到马路牙、损坏轮毂的低级错误。而在上一代方案中，很少会出现类似的情况。

特斯拉也没敢全面依赖 v12。一位特斯拉车主从 FSD 的软件包中发现，v12 仅适用于城市街道，高速场景还是用 v11。

“端到端系统的下限其实很低。” 一位自动驾驶工程师说，高速行车速度更快，规则更简单，经过长期打磨的传统方案，可能比当前的端到端方案更安全。“只有把端到端方案下限提上来，处理简单场景比原本方案更好，才是真正的性能提升。”

端到端需要更多投入才能达到传统方案效果。图片来自小鹏原自动驾驶 AI 负责人刘兰个川在去年 CVPR 上的分享

“端到端的模型上线之前一定会有 ‘护栏’。它像是未来会成为博士的学生，但成长过程中需要小学、初中老师去带，需要时间成长。” 英伟达汽车事业部负责人吴新宙认为端到端模型成为主流之前，还需要和原有模型配合工作，保证安全。

马斯克愿意更快一点。今年 4 月，马斯克在一季度财报会上说，他们可以看到三四个月后的模型效果，已经可以称为 FSD v13，“比当前车上的版本更强，但有一些问题需要解决。”

他相信特斯拉已经找到适用于自动驾驶的 “Scaling Laws”（规模定律）：只要继续扩大模型参数、投入更多数据和算力，不断改进模型架构，就会有更好的效果。

过去多年，Scaling Laws 被视为 OpenAI 有底气开发规模更大、效果更好模型的秘诀。而自动驾驶所在的计算机视觉领域，因为训练模型需要的数据是与物理世界中相关的视频，需要模型理解更多物理规则，许多研究者担心，用更多的数据、算力训练更大的模型，会陷入瓶颈，能力不会提升，反而会下降。

“我们可以根据过去的趋势估算未来的进展，从过去的数据来看，估算通常都是正确的。” 埃卢斯瓦米在财报会上说，特斯拉每周都会训练数百个能够生成不同驾驶路线的模型，再拿从用户和测试人员那里收集的数百万视频片段测试，如果效果更好，就会给专门的路测团队和员工测试，最后推送给更多用户，迭代速度会越来越快。

我们了解到，特斯拉的 v12 系统目前并不能像 GPT-4 等语言大模型那样，可以解答训练数据中没有的问题，还要从大量的数据中学习如何应对复杂场景。

随着模型能力提升，改进模型需要的数据更多。马斯克今天说，每 10000 公里的行驶数据，只有 1 公里能训练模型。而且每训练一遍，都需要消耗大量算力。

这对于特斯拉不是问题。路上数百万辆特斯拉车可以源源不断为它提供各种各样的数据。特斯拉还在开发更强的仿真系统，生成各种数据训练模型。去年的计算机视觉学术会议 CVPR 上，埃卢斯瓦米展示了特斯拉用收集来的数据训练成的 “世界模型”（World Model），它可以根据提示词和过去的视频，生成汽车继续向前开会经历什么场景的视频，比如不同视角的摄像头中，车道线怎么延续，路口怎么变化。

但建立在端到端架构上的自动系统，是一个 “黑盒子”，就连它的创造者都搞不清楚它如何把一堆数据变成结果。人们能做的，是给它处理好的数据，让算法自己提炼规律，并依此处理新的数据。如果出了问题，就给它更多的数据，让它自己修正。

这不是自动驾驶独有的问题，任何使用深度学习的应用都一样。只是人们不那么在意抖音的算法推给你几个不感兴趣的视频，也能忍受 ChatGPT 有时 “胡说八道”，但非常在意 2 吨重的汽车为什么在道路上失常。

“它可能会 ‘无声地失败’，当问题爆发出来时，通常难以分析和排查，因为模型已经变得非常庞大。” 卡帕蒂在《软件 2.0》文章中谈到了缺陷，这会是一个选择题：“用我们理解的、效果达到 90% 的方法。还是我们不理解、效果达到 99% 的模型。”

特斯拉已经用行动做出选择。他们相信，采用端到端神经网络、经过数十亿公里现实世界数据训练的纯视觉模型，是实现大规模无人驾驶的正确方法。

马斯克给自动驾驶团队下达的命令是，想尽办法提高 FSD v12 不需要人类能够行驶的距离。他们在办公室放了一面锣，每解决一个问题，锣就会响一次。马斯克认为，只要有确凿的数据证明，自动驾驶比人开车更可靠，就不会有太多监管障碍。

过去几个月，特斯拉降低 FSD 价格、让美国的车主免费试用，激进地把 v12 版本推向市场，一个季度就行驶 5 亿公里。

从特斯拉开始研发辅助驾驶系统以来，马斯克就对无人驾驶极其乐观。2016 年，特斯拉第一次在车辆周围放置了 8 颗摄像头，拥有 360° 视角，马斯克就安排团队精心准备视频，宣扬无人驾驶即将到来。

之后每隔一两年，马斯克就会更新一次无人驾驶即将到来的时间表，然后被证明是过于乐观。但每一次，自动驾驶技术又会往前多走一步。

编辑/Jeffrey

來源：晚點LatePost

裁員 1 萬多人、大幅縮減重要項目 4680 電池團隊、負責三電系統的高級副總裁等高管離職……特斯拉 CEO 埃隆·馬斯克在 4 月 15 日發起的大調整，只是一個序幕。

之後半個月，特斯拉持續裁撤曾經的重點項目：4680 電池項目繼續裁員、北美的超級充電樁團隊完全解散、9000 噸以上一體壓鑄機項目被叫停，相關高管大批離職。接下來的 6 月，特斯拉還會在加州和得州兩地裁員超過 6000 人。

馬斯克的新賭注是全自動駕駛。無人出租車（Robotaxi）項目被拔到最高優先級。馬斯克宣佈將在 8 月 8 日發佈產品，今年投入百億美元採購 GPU、研發車載芯片，用於改進自動駕駛系統。他曾多次說過，只要持續迭代這套系統，就會實現無人駕駛，讓特斯拉成爲 10 萬億美元市值公司。

在特斯拉的第二大市場中國，馬斯克也期望用這套系統翻盤。4 月底，馬斯克到訪中國，被政府領導接見。不久後，他在內部信中說，特斯拉已在中國獲得測試部分輔助駕駛系統的許可。

今年開始大面積推送的 FSD v12 自動駕駛系統確實展現出一些不同尋常的潛力。車主的反饋都很接近：“就像人開車一樣”，跟上一代相比有進步，狹路會車、超車更從容。

特斯拉 FSD v12 從容應對複雜路況。圖片來自 X@Rebellionair3

自動駕駛公司元戎啓行 CEO 周光今年 3 月在美國體驗 FSD v12 後，承認還是低估了它的能力：“去之前我認爲可能是 80 分的東西，但實際做到了 90 分。”

一家國內一線新能源企業負責人體驗後相信，特斯拉的自動駕駛會有革命性突破。競爭對手們不敢錯過，僅 4 月底北京車展前後，小鵬、華爲、長城、商湯絕影等公司宣佈將推出類似 FSD v12 的自動駕駛系統。同期，軟銀、英偉達和微軟用 10.8 億美元投資與特斯拉路線相同的英國自動駕駛公司 Wayve。

沿着特斯拉的路線，一場新的自動駕駛競賽正在開啓。這一次不只要解決技術難題，還是一場資源競賽。來中國當天，馬斯克在社交媒體上劃出入局門檻：“任何公司，如果算力投入達不到百億美元 ...... 就無法參與這一輪競爭。”

原理：砍掉 30 萬行代碼，讓數據決定車怎麼開

2000 年代，DARPA 在沙漠中舉辦的 3 場無人車挑戰賽，是現代無人駕駛技術研發的源頭。Google 招攬了優勝者，趟出一條可行的方案，將自動駕駛拆成多個環節：

用激光雷達、攝像頭等傳感器收集車輛周圍環境數據，交給依賴人工標註數據訓練出的模型，識別出常見的重要目標和各種障礙物（感知模塊），再配合高精地圖，讓系統了解道路會怎麼變化，最後依賴工程師用代碼寫成的規則決定車怎麼開（預測、規劃模塊）。

最初，特斯拉也按照 Google 開闢的路徑去做自動駕駛，爲了節省成本和迅速擴大使用範圍，他們開發依賴攝像頭，而不是昂貴的激光雷達和高精地圖的方案。推出 v12 前，特斯拉的自動駕駛系統工作流程大概是：

負責感知的視覺模塊先工作，處理攝像頭等傳感器捕捉的路況數據，識別出路上有什麼東西，大概怎麼分佈，哪些是動的，哪些是不動的，哪些是車道線，可以行車的區域有哪些等等。
然後是預測規劃控制模塊，調用感知模型處理過的信息，預測場景中人、車等動態目標接下來幾秒如何行動，結合模型和工程師提前寫入的規則，規劃安全的行駛路線，再控制方向盤、加速或剎車踏板，照路線行駛。

特斯拉在 2021 年 AI Day 上公佈的 FSD 系統架構。圖片來自特斯拉

爲了儘可能應對路上遇到的各種情況，特斯拉數百名工程師寫了 30 萬行 C++ 代碼制定規則——相當於早期 Linux 操作系統代碼量的 1.7 倍。

這不是人學會開車的方式，人不需要認出一條路上可能出現的大量物體到底是什麼，也不需要爲每個複雜場景提前制定各種規則，就能開車上路。

這樣做出來的自動駕駛系統，很難保證絕對安全。真實世界千變萬化，再多的工程師也難以窮盡。現在商業化的無人出租車，只能在有限區域運營，車內沒有安全員，只不過是運營方把他們轉移到雲端，遠程盯着。

直到 2021 年，在路上遇到一排交通錐，Google 無人駕駛子公司 Waymo 的無人車還是有可能停下來拒絕行駛。此時 Google 已經帶着整個行業投入上千億美元。一批公司在那兩年關停已經耗資數十億美元的無人駕駛項目。

“付出 20% 的努力，就能獲得 80% 的能力。” 小鵬原自動駕駛 AI 負責人劉蘭個川去年在一場學術活動上說，傳統自動駕駛方案開發簡單，但繼續提升困難。現在他加入英偉達智能汽車團隊。

特斯拉 FSD v12 學開車更像人。最大的改變是用了 “端到端” 架構：一端輸入攝像頭等傳感器獲得的數據，另一端直接輸出車該怎麼開。

訓練這套系統時，機器從大量車輛行駛視頻和人類司機在不同環境下打方向盤、踩加速踏板的數據中學習怎麼開車。

在 FSD v12 中，特斯拉工程師們寫的規則幾乎全被消滅，30 萬行規則代碼僅剩 2000 多行，不到原來的 1%。

端到端自動駕駛系統學開車的方式，也只是有一點像人，並沒有系統能像人類一樣真的理解世界。所以人學幾天，就能開車上路安全駕駛，但 FSD 要看海量的視頻學習。馬斯克去年在一次業績會上談到數據有多重要：“用 100 萬個視頻 case 訓練，勉強夠用；200 萬個，稍好一些；300 萬個，就會感到 Wow；到了 1000 萬個，就變得難以置信了。”

“傳統自動駕駛系統就像一個漏斗，信息一層層丟失。” 一位自動駕駛算法工程師說，傳統方案的感知階段，工程師們通常會設置 “白名單”，重點識別行人、車輛、車道線、紅綠燈等重要目標，以節省算力。到了預測規劃環節，工程師會提前設定，根據需求調用感知模塊輸出的信息完成工作，信息會再一次折損。因此傳統方案很難像人一樣用充分的信息決定怎麼開車，要依賴工程師們提前寫的規則。

而端到端方案中，攝像頭等傳感器獲得的信息全部傳遞到決策環節，“信息無損傳遞，模型可以從感知數據中捕捉更多信息完成決策，提升系統應對各種複雜場景的能力。” 上述自動駕駛算法工程師說，因爲是端到端架構，模型的決策也會直接影響感知環節，讓它之後捕捉更多人意識不到但對駕駛有幫助的數據。

在許多場景，特斯拉 FSD v12 都有明顯提升。一位自動駕駛從業者（知乎 @EatElephant）告訴我們，他體驗後感覺到，與 v11 相比，v12 控制車輛的速度和轉向 “很絲滑”，“即使坐在後排，路口轉彎時幾乎感覺不到任何頓挫”。爲了保證安全，傳統自動駕駛方案行車時，會時不時帶下剎車。

他在一篇文章中寫道，面對右前方有人騎自行車的場景，“v11 會過度小心，規劃出一條非常離譜的大幅繞行路線，v12 從容淡定，繞行幅度接近人類司機的選擇，速度控制和果斷程度也非常合理。”

那些難以用規則描述的場景，FSD v12 的應對方式有明顯進步。他舉例，比如遇到路邊開着雙閃的亞馬遜送貨卡車，能迅速判斷對向無車，立即借道繞行。而傳統的方案大多數情況下都會停下來，或者等一段時間才會考慮採取行動。

FSD v12.3 更新推送後，一批車主在 YouTube 上傳了車輛從容應對各種複雜的路況的視頻，比如晚間穿越擁擠的紐約第五大道，30 分鐘全程沒怎麼碰方向盤。

面對興奮的車主們，美國公路交通安全管理局在 5 月 6 日發函要求特斯拉詳細說明，如何防止車主濫用輔助駕駛系統，比如怎麼提醒駕駛員 “把手放在方向盤上”。

基礎：最難的幾年依然堅持預裝硬件、研發芯片、採集數據

2018 年初，特斯拉深陷產能危機、面臨生死考驗時，馬斯克發郵件給 OpenAI 管理層，希望 OpenAI 併入特斯拉，共同研發 “基於大規模神經網絡訓練的全自動駕駛方案”。

他認爲，AI 研發需要巨資，而 OpenAI 需要建立盈利模式才能與巨頭抗衡。而特斯拉已經用 Model 3 和其供應鏈打造了火箭的 “第一級”，如果 OpenAI 能夠併入特斯拉，將會加速無人駕駛研發，打造火箭的 “第二級”，特斯拉會因此賣出更多車，OpenAI 也會有足夠的收入開展人工智能研究。

馬斯克的提議被拒絕，最後退出 OpenAI 董事會。但在此之前，他就已經從 OpenAI 挖來安德烈·卡帕蒂（Andrej Karpathy），負責自動駕駛技術研發，帶隊訓練效果更強的模型。

多位自動駕駛從業者認爲，卡帕蒂加入特斯拉是其研發 v12 版端到端自動駕駛模型的開端。

1986 年出生的卡帕蒂，是過去十多年人工智能浪潮的親歷者，也是從中成長起來的人工智能科學家。他 2011 在斯坦福大學讀博士期間和導師李飛飛一起完善催生 AlexNet 的 ImageNet 競賽數據集，在各個學術會議上發表數篇計算機視覺論文，在斯坦福大學開設了第一門深度學習課。博士畢業後，他是最早一批加入 OpenAI 的人。

2017 年 11 月，卡帕蒂發佈著名的《軟件 2.0》文章，稱 “軟件吞噬世界，而人工智能爲基礎的軟件 2.0 正在吞噬軟件”。那時經過大量數據訓練的計算機視覺模型，識別物體的準確率超過人眼。AlphaGo 從數據中學到了擊敗人類圍棋冠軍的方法。

他相信，靠着大量數據，人工智能在大部分有價值的垂直領域，“至少在涉及圖像 / 視頻和聲音 / 語音的領域，比你我能想出的任何代碼都要好。”

在卡帕蒂到來前，特斯拉已經完成了自動駕駛的數據基建。

用大量數據訓練更強的模型，是非常適合特斯拉的技術發展路線。但特斯拉要投入大量資源研發自動駕駛技術，馬斯克從不缺乏冒險的決心。

2016 年開始，每一輛出廠的特斯拉汽車都搭載能運行 Autopilot 輔助駕駛系統的硬件，花錢買了軟件才能開啓功能。到現在也沒幾個汽車品牌會這麼做，更常見的做法是把同一款車分成不同的版本，把搭載自動駕駛硬件車型賣給感興趣的客戶。

標配輔助駕駛的時候，特斯拉啓用 “影子模式”（Shadow Mode），就算駕駛員不購買 Autopilot 功能，這套系統也會在後臺運行，記錄行車數據、規劃行車路線。馬斯克當時接受採訪說，它的作用是證明系統比人可靠，爲監管機構批准技術提供數據支撐。

卡帕蒂加入後，影子模式成爲特斯拉獲得訓練模型數據的核心來源——當系統選擇的路線與駕駛員的選擇有明顯偏差時，就會觸發數據回傳機制，系統會自動記錄攝像頭捕捉到的數據、車輛行駛數據等，等到連接 WiFi 後上傳到特斯拉的服務器中。到 2018 年底，特斯拉就靠這套系統採集 16 億公里數據，超過現在絕大多數研發自動駕駛技術的車企。

特斯拉的自動駕駛團隊把大部分精力放到數據上，搭建了一套數據處理系統，專門分析、篩選收集到的數據，一開始用人、後來絕大部分數據用機器打標籤，然後餵給模型，持續改進自動駕駛系統。爲了用大量數據訓練模型，特斯拉在 2019 年之前，就採購大量 GPU 建設名爲 Dojo 的算力中心，並持續擴大，到現在已經積累了等同 3.5 萬張 H100 的算力。

2019 年 4 月，特斯拉發佈 HW 3.0 硬件，搭載兩顆 FSD 第一代芯片，算力達到 144 TOPS，是當時英偉達車載芯片 Xavier 的近 7 倍。和過去一樣，不論用戶是否購買輔助駕駛系統，特斯拉都這套硬件裝到每一輛特斯拉車上，而且免費幫買了輔助駕駛系統的老用戶升級。

“不僅讓我們能夠更快地運行當前的神經網絡（模型），更重要的是，它允許我們在車上部署更大、計算成本更高的模型。” 卡帕蒂說。HW 3.0 也是特斯拉現在能大規模推行 FSD v12 系統的基礎。

特斯拉搭建這套基礎設施的時候，也是它開始量產車輛以來資金最緊張的一段時間。從 2017 年到 2019 年初，特斯拉都深陷 Model 3 產能危機。

到 2019 年 3 月，特斯拉的現金儲備只剩 22 億美元，只夠再燒不到半年。《馬斯克傳》記錄，當時馬斯克對妻子說，“我們必須籌集到資金，否則就完蛋了。”

馬斯克想了幾夜後，決定面向投資人辦一場活動，即特斯拉 “自動駕駛日”。他告訴華爾街的投資人，無人駕駛汽車未來能幫特斯拉實現巨額盈利，接下來一年多時間會部署 100 萬輛無人出租車，重塑人們的日常生活。

沒人相信特斯拉的無人駕駛能很快到來。這場活動結束一個多月，特斯拉股價跌了 30%。靠着 Model 3 產能順利擴大，上海工廠迅速建成，特斯拉才緩了過來。但接下來的 5 年，是特斯拉自動駕駛基礎技術進步最快的階段。

實現：從模擬人眼開始，一步步擴展到整個系統

看視頻學開車的道理聽起來很簡單，但中間需要解決無數問題。

2020 年到 2022 年，特斯拉每年都會公開一版 “感知” 模型，每個版本都朝着模擬 “人眼” 更進一步。

2020 年 2 月，卡帕蒂在一場學術會議上展示了特斯拉訓練 48 個神經網絡組成的 “多任務模型”HydraNet，可以識別 1000 多個目標，比如汽車、自行車、車道線、學校區域等。

HydraNet 用微軟亞洲研究院 2015 年發佈的 ResNet 模型當主幹，提取車身周邊 8 個攝像頭所捕捉畫面的通用特徵，交給不同的算法分支完成不同的任務。這麼做可以避免用不同的模型重複從相同的畫面提取特徵，節省算力。

這是當時學術界和多數開發大型計算機識別系統公司的選擇，特斯拉把它做得規模更大，並實現工程化。但這麼做有侷限。HydraNet 只能從不同角度的攝像頭捕捉的畫面中各自提取信息，攝像頭可能只會捕捉到周邊物體的一部分。就像新手司機很難靠後視鏡流暢倒車入庫一樣，自動駕駛系統也很難靠它實現真正的無人駕駛，還得靠各種雷達、高精地圖輔助。

不用激光雷達的卡帕蒂團隊選擇使用一系列算法，將 8 個不同方向的攝像頭收集的畫面拼成一個 360° 的鳥瞰圖（Bird's Eye View，即 BEV）模式，再讓模型 “理解世界”，規劃行車路線。但想讓這套系統效果良好，得儘量保證地面是平的，而且車周圍環境要簡單，否則系統就難以準確理解不同攝像頭看到的圖片之間有什麼關聯。

“當我們用它實現 FSD 時，很快發現達不到預想中的效果。” 安德烈·卡帕蒂在 2021 年特斯拉 AI Day 上說，他介紹了用 Transformer 架構開發的新版模型，能準確地把跨越多個相機的目標拼得更準確、穩定。

上部三個視角是特斯拉車載攝像頭拍攝的畫面。左下是傳統方法拼出來的 BEV 道路圖，右下是 Transformer 方法

而且利用 Transformer 架構做成的模型，輸出的信息可以直接用到後續的預測規劃模塊，也爲 FSD v12 做成端到端模型打下基礎。

與新模型配合，卡帕蒂還分享了一個名叫 “Spatial RNN” 的架構，用視頻訓練模型時，模型能獲得短暫的 “記憶” 能力，理解周圍的場景如何隨着時間變化，從而具備腦補攝像頭視野盲區、實時構建局部地圖的能力。

這次技術迭代，讓特斯拉的輔助駕駛系統不用高精地圖也能把車開好，再一次推高自動駕駛的能力上限，向人眼靠近。

等到 2022 年特斯拉 AI Day 舉辦時，卡帕蒂已經離開特斯拉。特斯拉的自動駕駛系統繼續迭代，繼任者阿肖克·埃盧斯瓦米（Ashok Elluswamy）介紹了 “佔用網絡”（Occupancy Network），在 Transformer 架構基礎上引入 “高度” 要素，能把不同角度攝像頭捕捉到的畫面還原成 3D 場景，計算出一個物體在空間中佔用多少點，從而推斷出它的形狀。

藉助 Occupancy Network，特斯拉的自動駕駛系統不用激光雷達，只靠攝像頭收集信息，就可以識別出它沒有見過的障礙物，被視爲 “純視覺方案” 的勝利。

特斯拉多年研發，終於實現馬斯克多年前提出的第一個要求：人靠雙眼就可以識別、還原 3D 環境，車靠攝像頭也應該可以。

特斯拉 Occupancy Network 識別車輛周圍障礙物。圖片來自特斯拉 2022 年 AI Day。

在這個過程中，特斯拉還在逐步嘗試讓神經網絡決定車怎麼開。在 2021 年的 AI Day 上，特斯拉就展示了用大量數據訓練出來的 “神經網絡規劃模型”，當時只是作爲輔助，爲最終的規劃決策模塊提供參考。到 v12 版本，神經網絡正式接管預測規劃模塊，完成端到端拼圖。

疑問：自動駕駛現在能不能有 Scaling Laws

FSD v12 距離真正的無人駕駛還有距離。像 ChatGPT 一樣，它有閃光時刻，但也常犯錯。廣受好評的 v12.3 版本上線後，車輛時有撞到馬路牙、損壞輪轂的低級錯誤。而在上一代方案中，很少會出現類似的情況。

特斯拉也沒敢全面依賴 v12。一位特斯拉車主從 FSD 的軟件包中發現，v12 僅適用於城市街道，高速場景還是用 v11。

“端到端系統的下限其實很低。” 一位自動駕駛工程師說，高速行車速度更快，規則更簡單，經過長期打磨的傳統方案，可能比當前的端到端方案更安全。“只有把端到端方案下限提上來，處理簡單場景比原本方案更好，才是真正的性能提升。”

端到端需要更多投入才能達到傳統方案效果。圖片來自小鵬原自動駕駛 AI 負責人劉蘭個川在去年 CVPR 上的分享

“端到端的模型上線之前一定會有 ‘護欄’。它像是未來會成爲博士的學生，但成長過程中需要小學、初中老師去帶，需要時間成長。” 英偉達汽車事業部負責人吳新宙認爲端到端模型成爲主流之前，還需要和原有模型配合工作，保證安全。

馬斯克願意更快一點。今年 4 月，馬斯克在一季度業績會上說，他們可以看到三四個月後的模型效果，已經可以稱爲 FSD v13，“比當前車上的版本更強，但有一些問題需要解決。”

他相信特斯拉已經找到適用於自動駕駛的 “Scaling Laws”（規模定律）：只要繼續擴大模型參數、投入更多數據和算力，不斷改進模型架構，就會有更好的效果。

過去多年，Scaling Laws 被視爲 OpenAI 有底氣開發規模更大、效果更好模型的秘訣。而自動駕駛所在的計算機視覺領域，因爲訓練模型需要的數據是與物理世界中相關的視頻，需要模型理解更多物理規則，許多研究者擔心，用更多的數據、算力訓練更大的模型，會陷入瓶頸，能力不會提升，反而會下降。

“我們可以根據過去的趨勢估算未來的進展，從過去的數據來看，估算通常都是正確的。” 埃盧斯瓦米在業績會上說，特斯拉每週都會訓練數百個能夠生成不同駕駛路線的模型，再拿從用戶和測試人員那裏收集的數百萬視頻片段測試，如果效果更好，就會給專門的路測團隊和員工測試，最後推送給更多用戶，迭代速度會越來越快。

我們了解到，特斯拉的 v12 系統目前並不能像 GPT-4 等語言大模型那樣，可以解答訓練數據中沒有的問題，還要從大量的數據中學習如何應對複雜場景。

隨着模型能力提升，改進模型需要的數據更多。馬斯克今天說，每 10000 公里的行駛數據，只有 1 公里能訓練模型。而且每訓練一遍，都需要消耗大量算力。

這對於特斯拉不是問題。路上數百萬輛特斯拉車可以源源不斷爲它提供各種各樣的數據。特斯拉還在開發更強的仿真系統，生成各種數據訓練模型。去年的計算機視覺學術會議 CVPR 上，埃盧斯瓦米展示了特斯拉用收集來的數據訓練成的 “世界模型”（World Model），它可以根據提示詞和過去的視頻，生成汽車繼續向前開會經歷什麼場景的視頻，比如不同視角的攝像頭中，車道線怎麼延續，路口怎麼變化。

但建立在端到端架構上的自動系統，是一個 “黑盒子”，就連它的創造者都搞不清楚它如何把一堆數據變成結果。人們能做的，是給它處理好的數據，讓算法自己提煉規律，並依此處理新的數據。如果出了問題，就給它更多的數據，讓它自己修正。

這不是自動駕駛獨有的問題，任何使用深度學習的應用都一樣。只是人們不那麼在意抖音的算法推給你幾個不感興趣的視頻，也能忍受 ChatGPT 有時 “胡說八道”，但非常在意 2 噸重的汽車爲什麼在道路上失常。

“它可能會 ‘無聲地失敗’，當問題爆發出來時，通常難以分析和排查，因爲模型已經變得非常龐大。” 卡帕蒂在《軟件 2.0》文章中談到了缺陷，這會是一個選擇題：“用我們理解的、效果達到 90% 的方法。還是我們不理解、效果達到 99% 的模型。”

特斯拉已經用行動做出選擇。他們相信，採用端到端神經網絡、經過數十億公里現實世界數據訓練的純視覺模型，是實現大規模無人駕駛的正確方法。

馬斯克給自動駕駛團隊下達的命令是，想盡辦法提高 FSD v12 不需要人類能夠行駛的距離。他們在辦公室放了一面鑼，每解決一個問題，鑼就會響一次。馬斯克認爲，只要有確鑿的數據證明，自動駕駛比人開車更可靠，就不會有太多監管障礙。

過去幾個月，特斯拉降低 FSD 價格、讓美國的車主免費試用，激進地把 v12 版本推向市場，一個季度就行駛 5 億公里。

從特斯拉開始研發輔助駕駛系統以來，馬斯克就對無人駕駛極其樂觀。2016 年，特斯拉第一次在車輛周圍放置了 8 顆攝像頭，擁有 360° 視角，馬斯克就安排團隊精心準備視頻，宣揚無人駕駛即將到來。

之後每隔一兩年，馬斯克就會更新一次無人駕駛即將到來的時間表，然後被證明是過於樂觀。但每一次，自動駕駛技術又會往前多走一步。

編輯/Jeffrey

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

特斯拉大裁员后的豪赌！FSD v12价值几何？