車企新舊勢力搶着上，端到端真能顛覆自動駕駛？｜鈦度車庫

鈦媒體 · 07/03 22:29

今年5月，自动驾驶迎来了一笔10亿美金的巨额融资。

聚焦研发端到端自动驾驶以及自动驾驶大模型的英国初创公司Wayve.AI官宣获得了一轮10.5亿美元的融资，投资方为软银、英伟达和现有投资人微软。

即使在自动驾驶融资高涨的时候，获得过10亿美金级融资的公司也并不多，能够挑出来的大概只有Waymo、Argo、Cruise等少数几家。更何况自2021年上半年以来，全球自动驾驶投融资市场进入低迷期。在鲜有资本在自动驾驶领域投入巨额资金的情况下，Wayve.AI凭借“端到端自动驾驶”概念拿下了10亿美元级别的融资，或许已经在指明潮水的方向。

端到端并不是一个新的概念，它的“翻红”来自2023年8月特斯拉发布的FSD V12版本。此后，迅速成为自动驾驶领域的“当红炸子鸡”。今年4月，马斯克旋风访华，外界盛传他为FSD进入中国而来，这让人看到了使用端到端方案的FSD加速入华的可能性。

国内的头部参与者们自然不甘示弱，小鹏、理想、蔚来、长城、华为、元戎启行、毫末智行都不约而同地转向端到端自动驾驶路线，希望其成为狙击对手的“大杀器”。

显然，在赛道越来越卷，以及特斯拉FSD即将入华的挑战和激励下，一场新的行业变局正在酝酿。

端到端与大模型，并不必然相关

自动驾驶行业一向热衷发明新词，比如前年流行的是“Transfomer+BEV”，去年爆火的是“大模型”、“无图”，今年轮到了“端到端”。那么，究竟什么是端到端？

所谓端到端（end-to-end）架构，其对应的是传统自动驾驶采用的模块化架构。传统的自动驾驶架构更多衍生于机器人架构，通常包含感知、定位、规划三大模块，不同领域的工程师负责不同的模块。虽然这种方法在早期的自动驾驶技术发展中起到了积极作用，但也暴露出了一些明显的弊端。

零一汽车智能驾驶合伙人、前图森感知负责人王泮渠就指出，分模块会导致架构复杂，通常有3-40个模块，各个模块上限不高，传输和优化难度高，并且局部与整体优化目标冲突。

除此之外，他还表示，开发、维护和人力成本会随着模块增加而飙升。并且由于叠加规则应对交付压力，导致维护性和可扩展性变差。

相比之下，端到端不需要人为将任务分解成多个中间步骤，以感知的传感器数据（图像、点云、雷达）作为输入，直接输出用于车辆的控制指令（油门、刹车），中间过程都靠神经网络模型来完成。如果用日常的做菜过程来理解的话，端到端就有点类似在模型这边输入食材，另一边一步到位输出了做好的菜。

从模块化架构到端到端架构，这样的变化有什么好处呢？蔚来智能驾驶研发副总裁任少卿对钛媒体App曾表达过，“真实世界是复杂的。越往后你会发现，你可以解决99%的问题，但就是这1%的问题解决不了。所以大家就希望说那我不定这个接口了，让网络自己学，让机器自己去定，这个的核心就是端到端，就相当于把前面和后面连起来，把接口干掉，能干掉很多事。”

辰韬资本投资经理刘煜冬对钛媒体App也表示，对于自动驾驶很多的“只可意会，不可言传”的长尾场景，像积水、汽油等不同的路况，端到端有很强的应对能力。并且，端到端可以让驾驶风格更加拟人化，表现得更像人类司机，比如遇到堵车的情况提前处理，训练模型会更像人类老司机。

图片来源：辰韬资本《端到端自动驾驶行业研究报告》

值得注意的是，在谈到端到端自动驾驶时，人们很容易将其与大模型的概念混淆在一起。刘煜冬坦言，实际上两者并不必然相关。

之所以会这样说，在于大模型更多关注模型的参数数量以及涌现能力，而端到端更多强调的是结构上的梯度可传导以及全局优化。目前的大模型为端到端实现提供了很好的可选方案，但是端到端并非必然基于大模型实现。

对于自动驾驶及具身智能领域的 “ 大模型 ”，往往不是传统意义上的 “ 大 ” 模型。这类大模型由于更多考虑了车端算力以及实时性要求的性质，很难达到和 NLP (Natural Language Processing) 或者通用 AI 领域同等的标准。如果不考虑英伟达规划 2025-2026 年量产的 Thor，目前车端算力较大的也只有几百 TOPS (Tera Operations Per Second)，这种算力水平远远无法满足动辄 10B 甚至上百 B 的大模型需求。

所以，自动驾驶领域的大模型都是小于 1B 的模型，这里所谓的 “ 大 ” 的定义更多的是相对于原来感知系统采用的几百万参数的小模型而言。

新旧势力押注，2025年量产

事实上，端到端并不是一个全新的概念。

2016年，英伟达就提出采用单个神经网络来实现端到端的自动驾驶。但由于结构设计过于简单，模型的规模也过小，这种方案仅能支持高速或者简单道路状况下的自动驾驶，且仅仅完成了小规模的demo验证。

直到2023年8月特斯拉公布FSD V12版本时提到引入了“端到端”技术，从此成为自动驾驶界最火热的概念。

国内的小鹏汽车紧跟一步。1月30日，何小鹏表示小鹏智驾未来将实现端到端模型全面上车。5月20日，小鹏汽车在北京举办“AI DAY”，宣布即日起开始向用户推送基于端到端大模型的智能驾驶和智能座舱系统。

4月24日，华为智能汽车解决方案发布会上，华为发布了以智能驾驶为核心的全新智能汽车解决方案品牌 —— 乾崑，并发布了采用端到端架构的ADS 3.0。据悉，在6月刚刚上市的享界S9已经首发搭载了ADS 3.0智驾系统。

蔚来则在4月公开了端云算力规模，并透露端到端方案会在今年年内发布。最近还有报道称，蔚来智驾研发部已经完成架构调整，要放弃业界沿用多年的“感知-决策-规控”的技术路线，这意味着蔚来将更明确地探索用端到端大模型实现高阶智能驾驶。

理想汽车也不甘落后。在2024中国汽车重庆论坛上，理想汽车董事长兼CEO李想透露，将向测试用户推送基于300万clips训练出的端到端+VLM自动驾驶体系。预计最早在今年年底、最晚明年年初，理想汽车将推出通过超过1000万clips训练出的更完善的自动驾驶体系，为用户提供监督型L3级自动驾驶体验。

新势力不断出牌，传统车企也在奋进追赶。4月15日，在长城汽车董事长魏建军的直播首秀中，新款魏牌蓝山车型搭载的端到端智驾方案就曾引发外界关注。

在这一块发力的除了蔚小理、长城等众多车企，还有小马智行、英伟达、元戎启行、商汤绝影等产业链企业。

去年，小马智行将感知、预测、规控三大传统模块打通，统一成端到端自动驾驶模型，目前已同步搭载到 L4 级自动驾驶出租车和 L2 级辅助驾驶乘用车。

2024北京车展前夕，吴新宙展示了英伟达自动驾驶业务从 L2 到 L3的发展规划，其中提到规划的第二步为 “ 在 L2++ 系统上达成新突破，LLM(Large Language Model，大语言模型)和 VLM(Visual Language Model，视觉语言模型) 大模型上车。

元戎启行、商汤绝影则是在北京车展上各自展示了端到端产品。前者展示的是即将量产的高阶智驾平台 DeepRoute IO 以及基于 DeepRoute IO 的端到端解决方案，后者推出的则是面向量产的端到端自动驾驶解决方案 “UniAD”。

至于端到端架构何时上车，辰韬资本发布的《端到端自动驾驶行业研究报告》表示，这一技术演进的时间进度可以参考国内企业追赶特斯拉BEV/Occupancy Network的进度。特斯拉在2021和2022年年底的AI Day上分别公布了BEV和Ocuupancy Network的技术架构，而国内车企开始OTA基于BEV/Occupancy Network的功能普遍在2023-2024年，与特斯拉的研发进度差大概在1.5~2年。参考前述追赶进度，国内自动驾驶公司的模块化端到端方案上车量产时间可能会在2025年。

2023年9月中信证券发布研报预测：2025年起，端到端发展的提速将催化各级别自动驾驶功能渗透率大幅提升，我们据此更加乐观地预测，高速NOA渗透率至2026年将超过30%，城市 NOA渗透率超过 10%。

数据、算力是入场券，也是挑战赛

头部车企、自动驾驶技术供应商都在跑步进场，但端到端的上车仍有极高难度。

首先，摆在国内厂商面前亟待解决的就是端到端训练的数据难题。毕竟端到端方案中的一体化训练需要通过足够多的数据训练，这样才能涌现出一些惊人的能力。

马斯克之前曾谈到过数据对自动驾驶模型的重要性：训练了100万个视频Case，勉强够用；200万个，稍好一些；300万个，就会感到Wow；到1000万个，就变得难以置信了。

除了数据量的差距，从这些难以计算的数据中，找出可以用于训练的有效数据，是另一个重要的挑战。

“老的数据要求的场景比较单一，复杂度低。深度学习的路线要求的场景分布会大很多，数据集的多样性要求更高。”恺望数据解决方案总监黄玉庆表示。

在他看来，目前自动驾驶数据的采集处理面临诸多挑战。首先，车厂的采集方案都不太相同，标准不一样。其次，路采的时候涉及到合规，如何脱敏并且上传到云端，需要合规的公司做支持，而提供这样合规服务的公司并不是很多。再次，数据管理平台这部分国内并不完整，比如云端做大批量训练和计算时怎样进行清洗、拆、剪辑、标注。

面对数据量、数据标注、数据质量和数据分布等多维度的挑战，业内有一种说法是：建立数据共享平台。

对此，极佳科技工程负责人毛继明表示，数据共享的价值毋庸置疑，但要谨慎乐观。“数据共享背后是数据交易和数据价值的共识，买方和卖方很难达成共识。生成的好坏对于训练效果的影响也会影响共识，需要政府推动。另外也可以出台国标或法律。”

辉羲智能市场副总裁刘奇也表示，众多主机厂的痛点，不是每家主机厂都能投这么多钱把数据采集起来。对于数据采集统一化有很高的要求，各家技术方案都不一样。另外，商业上的收益会是影响闭环更大的因素。

即便解决了数据采集问题，这也只是第一步，算力也是很大的限制。

在2024 Q1财报电话会上，特斯拉表示，公司已经有35000张H100GPU，并计划在2024年内增加到85000张H100以上，达到和谷歌、亚马逊同一梯队。

在国内，大部分研发端到端自动驾驶的公司目前的训练算力规模在千卡级别，随着端到端逐渐走向大模型，训练算力将显得捉襟见肘。

理想汽车总裁、总工程师马东辉在理想汽车今年第一季度财报电话会上坦言，特斯拉“端到端大模型”需要大量的数据和训练算力，“这不是所有车企都有能力和资源做到的”。

余承东也发表过类似看法，他曾自信地表示，“国外就是特斯拉，国内就是华为。”他认为，在智驾上会强者越强，一步领先就步步领先。投入大，成本高，一般企业根本投入不起。

据悉，华为乾崑ADS 3.0在算力方面达到3.5E FLOPS（注：FLOPS指每秒执行的浮点运算次数，1E FLOPS即100亿亿次），训练数据量已达日行3000万公里。

小鹏汽车为此给出过明确的数字：2024年将投入35亿元用于智能研发，并新招募4000名专业人才，今后每年还将投入超过7亿元用于算力训练。

特斯拉则是计划2024年底前对DOJO超算中心投资超过10亿美元，以提升总算力至10万PFLOPS。

显然，要想把端到端做好并不容易，需要巨大的车队、巨大的算力、非常长时间在安全领域的浸润。这场以“端到端”为中心的拼杀还在继续，角力的烈度仍在加剧。接下来，我们更想观察的是拨开营销的迷雾，端到端的真相到底会是什么。

（本文首发于钛媒体App 作者｜韩敬娴）

今年5月，自動駕駛迎來了一筆10億美金的巨額融資。

聚焦研發端到端自動駕駛以及自動駕駛大模型的英國初創公司Wayve.AI官宣獲得了一輪10.5億美元的融資，投資方爲軟銀、英偉達和現有投資人微軟。

即使在自動駕駛融資高漲的時候，獲得過10億美金級融資的公司也並不多，能夠挑出來的大概只有Waymo、Argo、Cruise等少數幾家。更何況自2021年上半年以來，全球自動駕駛投融資市場進入低迷期。在鮮有資本在自動駕駛領域投入巨額資金的情況下，Wayve.AI憑藉“端到端自動駕駛”概念拿下了10億美元級別的融資，或許已經在指明潮水的方向。

端到端並不是一個新的概念，它的“轉漲”來自2023年8月特斯拉發佈的FSD V12版本。此後，迅速成爲自動駕駛領域的“當紅炸子雞”。今年4月，馬斯克旋風訪華，外界盛傳他爲FSD進入中國而來，這讓人看到了使用端到端方案的FSD加速入華的可能性。

國內的頭部參與者們自然不甘示弱，小鵬、理想、蔚來、長城、華爲、元戎啓行、毫末智行都不約而同地轉向端到端自動駕駛路線，希望其成爲狙擊對手的“大殺器”。

顯然，在賽道越來越卷，以及特斯拉FSD即將入華的挑戰和激勵下，一場新的行業變局正在醞釀。

端到端與大模型，並不必然相關

自動駕駛行業一向熱衷發明新詞，比如前年流行的是“Transfomer+BEV”，去年爆火的是“大模型”、“無圖”，今年輪到了“端到端”。那麼，究竟什麼是端到端？

所謂端到端（end-to-end）架構，其對應的是傳統自動駕駛採用的模塊化架構。傳統的自動駕駛架構更多衍生於機器人架構，通常包含感知、定位、規劃三大模塊，不同領域的工程師負責不同的模塊。雖然這種方法在早期的自動駕駛技術發展中起到了積極作用，但也暴露出了一些明顯的弊端。

零一汽車智能駕駛合夥人、前圖森感知負責人王泮渠就指出，分模塊會導致架構複雜，通常有3-40個模塊，各個模塊上限不高，傳輸和優化難度高，並且局部與整體優化目標衝突。

除此之外，他還表示，開發、維護和人力成本會隨着模塊增加而飆升。並且由於疊加規則應對交付壓力，導致維護性和可擴展性變差。

相比之下，端到端不需要人爲將任務分解成多箇中間步驟，以感知的傳感器數據（圖像、點雲、雷達）作爲輸入，直接輸出用於車輛的控制指令（油門、剎車），中間過程都靠神經網絡模型來完成。如果用日常的做菜過程來理解的話，端到端就有點類似在模型這邊輸入食材，另一邊一步到位輸出了做好的菜。

從模塊化架構到端到端架構，這樣的變化有什麼好處呢？蔚來智能駕駛研發副總裁任少卿對鈦媒體App曾表達過，“真實世界是複雜的。越往後你會發現，你可以解決99%的問題，但就是這1%的問題解決不了。所以大家就希望說那我不定這個接口了，讓網絡自己學，讓機器自己去定，這個的核心就是端到端，就相當於把前面和後面連起來，把接口乾掉，能幹掉很多事。”

辰韜資本投資經理劉煜冬對鈦媒體App也表示，對於自動駕駛很多的“只可意會，不可言傳”的長尾場景，像積水、汽油等不同的路況，端到端有很強的應對能力。並且，端到端可以讓駕駛風格更加擬人化，表現得更像人類司機，比如遇到堵車的情況提前處理，訓練模型會更像人類老司機。

圖片來源：辰韜資本《端到端自動駕駛行業研究報告》

值得注意的是，在談到端到端自動駕駛時，人們很容易將其與大模型的概念混淆在一起。劉煜冬坦言，實際上兩者並不必然相關。

之所以會這樣說，在於大模型更多關注模型的參數數量以及湧現能力，而端到端更多強調的是結構上的梯度可傳導以及全局優化。目前的大模型爲端到端實現提供了很好的可選方案，但是端到端並非必然基於大模型實現。

對於自動駕駛及具身智能領域的 “ 大模型 ”，往往不是傳統意義上的 “ 大 ” 模型。這類大模型由於更多考慮了車端算力以及實時性要求的性質，很難達到和 NLP (Natural Language Processing) 或者通用 AI 領域同等的標準。如果不考慮英偉達規劃 2025-2026 年量產的 Thor，目前車端算力較大的也只有幾百 TOPS (Tera Operations Per Second)，這種算力水平遠遠無法滿足動輒 10B 甚至上百 B 的大模型需求。

所以，自動駕駛領域的大模型都是小於 1B 的模型，這裏所謂的 “ 大 ” 的定義更多的是相對於原來感知系統採用的幾百萬參數的小模型而言。

新舊勢力押注，2025年量產

事實上，端到端並不是一個全新的概念。

2016年，英偉達就提出採用單個神經網絡來實現端到端的自動駕駛。但由於結構設計過於簡單，模型的規模也過小，這種方案僅能支持高速或者簡單道路狀況下的自動駕駛，且僅僅完成了小規模的demo驗證。

直到2023年8月特斯拉公佈FSD V12版本時提到引入了“端到端”技術，從此成爲自動駕駛界最火熱的概念。

國內的小鵬汽車緊跟一步。1月30日，何小鵬表示小鵬智駕未來將實現端到端模型全面上車。5月20日，小鵬汽車在北京舉辦“AI DAY”，宣佈即日起開始向用戶推送基於端到端大模型的智能駕駛和智能座艙系統。

4月24日，華爲智能汽車解決方案發佈會上，華爲發佈了以智能駕駛爲核心的全新智能汽車解決方案品牌 —— 乾崑，併發布了採用端到端架構的ADS 3.0。據悉，在6月剛剛上市的享界S9已經首發搭載了ADS 3.0智駕系統。

蔚來則在4月公開了端雲算力規模，並透露端到端方案會在今年年內發佈。最近還有報道稱，蔚來智駕研發部已經完成架構調整，要放棄業界沿用多年的“感知-決策-規控”的技術路線，這意味着蔚來將更明確地探索用端到端大模型實現高階智能駕駛。

理想汽車也不甘落後。在2024中國汽車重慶論壇上，理想汽車董事長兼CEO李想透露，將向測試用戶推送基於300萬clips訓練出的端到端+VLM自動駕駛體系。預計最早在今年年底、最晚明年年初，理想汽車將推出通過超過1000萬clips訓練出的更完善的自動駕駛體系，爲用戶提供監督型L3級自動駕駛體驗。

新勢力不斷出牌，傳統車企也在奮進追趕。4月15日，在長城汽車董事長魏建軍的直播首秀中，新款魏牌藍山車型搭載的端到端智駕方案就曾引發外界關注。

在這一塊發力的除了蔚小理、長城等衆多車企，還有小馬智行、英偉達、元戎啓行、商湯絕影等產業鏈企業。

去年，小馬智行將感知、預測、規控三大傳統模塊打通，統一成端到端自動駕駛模型，目前已同步搭載到 L4 級自動駕駛出租車和 L2 級輔助駕駛乘用車。

2024北京車展前夕，吳新宙展示了英偉達自動駕駛業務從 L2 到 L3的發展規劃，其中提到規劃的第二步爲 “ 在 L2++ 系統上達成新突破，LLM(Large Language Model，大語言模型)和 VLM(Visual Language Model，視覺語言模型) 大模型上車。

元戎啓行、商湯絕影則是在北京車展上各自展示了端到端產品。前者展示的是即將量產的高階智駕平台 DeepRoute IO 以及基於 DeepRoute IO 的端到端解決方案，後者推出的則是面向量產的端到端自動駕駛解決方案 “UniAD”。

至於端到端架構何時上車，辰韜資本發佈的《端到端自動駕駛行業研究報告》表示，這一技術演進的時間進度可以參考國內企業追趕特斯拉BEV/Occupancy Network的進度。特斯拉在2021和2022年年底的AI Day上分別公佈了BEV和Ocuupancy Network的技術架構，而國內車企開始OTA基於BEV/Occupancy Network的功能普遍在2023-2024年，與特斯拉的研發進度差大概在1.5~2年。參考前述追趕進度，國內自動駕駛公司的模塊化端到端方案上車量產時間可能會在2025年。

2023年9月中信證券發佈研報預測：2025年起，端到端發展的提速將催化各級別自動駕駛功能滲透率大幅提升，我們據此更加樂觀地預測，高速NOA滲透率至2026年將超過30%，城市 NOA滲透率超過 10%。

數據、算力是入場券，也是挑戰賽

頭部車企、自動駕駛技術供應商都在跑步進場，但端到端的上車仍有極高難度。

首先，擺在國內廠商面前亟待解決的就是端到端訓練的數據難題。畢竟端到端方案中的一體化訓練需要通過足夠多的數據訓練，這樣才能湧現出一些驚人的能力。

馬斯克之前曾談到過數據對自動駕駛模型的重要性：訓練了100萬個視頻Case，勉強夠用；200萬個，稍好一些；300萬個，就會感到Wow；到1000萬個，就變得難以置信了。

除了數據量的差距，從這些難以計算的數據中，找出可以用於訓練的有效數據，是另一個重要的挑戰。

“老的數據要求的場景比較單一，複雜度低。深度學習的路線要求的場景分佈會大很多，數據集的多樣性要求更高。”愷望數據解決方案總監黃玉慶表示。

在他看來，目前自動駕駛數據的採集處理面臨諸多挑戰。首先，車廠的採集方案都不太相同，標準不一樣。其次，路採的時候涉及到合規，如何脫敏並且上傳到雲端，需要合規的公司做支持，而提供這樣合規服務的公司並不是很多。再次，數據管理平台這部分國內並不完整，比如雲端做大批量訓練和計算時怎樣進行清洗、拆、剪輯、標註。

面對數據量、數據標註、數據質量和數據分佈等多維度的挑戰，業內有一種說法是：建立數據共享平台。

對此，極佳科技工程負責人毛繼明表示，數據共享的價值毋庸置疑，但要謹慎樂觀。“數據共享背後是數據交易和數據價值的共識，買方和賣方很難達成共識。生成的好壞對於訓練效果的影響也會影響共識，需要政府推動。另外也可以出臺國標或法律。”

輝羲智能市場副總裁劉奇也表示，衆多主機廠的痛點，不是每家主機廠都能投這麼多錢把數據採集起來。對於數據採集統一化有很高的要求，各家技術方案都不一樣。另外，商業上的收益會是影響閉環更大的因素。

即便解決了數據採集問題，這也只是第一步，算力也是很大的限制。

在2024 Q1業績電話會上，特斯拉表示，公司已經有35000張H100GPU，並計劃在2024年內增加到85000張H100以上，達到和谷歌、亞馬遜同一梯隊。

在國內，大部分研發端到端自動駕駛的公司目前的訓練算力規模在千卡級別，隨着端到端逐漸走向大模型，訓練算力將顯得捉襟見肘。

理想汽車總裁、總工程師馬東輝在理想汽車今年第一季度業績電話會上坦言，特斯拉“端到端大模型”需要大量的數據和訓練算力，“這不是所有車企都有能力和資源做到的”。

餘承東也發表過類似看法，他曾自信地表示，“國外就是特斯拉，國內就是華爲。”他認爲，在智駕上會強者越強，一步領先就步步領先。投入大，成本高，一般企業根本投入不起。

據悉，華爲乾崑ADS 3.0在算力方面達到3.5E FLOPS（注：FLOPS指每秒執行的浮點運算次數，1E FLOPS即100億億次），訓練數據量已達日行3000萬公里。

小鵬汽車爲此給出過明確的數字：2024年將投入35億元用於智能研發，並新招募4000名專業人才，今後每年還將投入超過7億元用於算力訓練。

特斯拉則是計劃2024年底前對DOJO超算中心投資超過10億美元，以提升總算力至10萬PFLOPS。

顯然，要想把端到端做好並不容易，需要巨大的車隊、巨大的算力、非常長時間在安全領域的浸潤。這場以“端到端”爲中心的拼殺還在繼續，角力的烈度仍在加劇。接下來，我們更想觀察的是撥開營銷的迷霧，端到端的真相到底會是什麼。

（本文首發於鈦媒體App 作者｜韓敬嫺）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

车企新旧势力抢着上，端到端真能颠覆自动驾驶？｜钛度车库