追隨特斯拉，理想汽車也搞“端到端”｜鈦度車庫

鈦媒體 · 07/11 18:35

图源：截图自理想发布会

2023年8月，特斯拉全自动驾驶系统FSD V12版本问世。此次迭代最与众不同的升级是，用上了所有车企都未曾尝试过的端到端架构。特斯拉也由此成为第一家成功量产端到端技术架构的车企。

有特斯拉引路，各大车企纷纷拥抱端到端，全面转向基于端到端大模型的自动驾驶路线。今年5月，小鹏率先宣布端到端大模型上车；蔚来也在前不久宣布转向端到端研发，为此专门成立了大模型研发部门。

当下，不管研发层面是否达到端到端的要求，各大车企在宣传层面都争先恐后地“站队”端到端。一时间，小鹏、蔚来、小米、极越、智己、广汽、长城、极氪等，都表态会实现端到端上车。端到端俨然成为车企争抢自动驾驶第一梯队的最佳例证。

最近，理想汽车也宣布要实现端到端技术架构上车。在智能驾驶夏季发布会上，理想汽车宣布将于7月内向全量理想AD Max用户推送“全国都能开”的无图NOA。同时，理想汽车还发布了由“端到端模型+VLM视觉语言模型+世界模型”组成的全新自动驾驶技术架构。但没有说明何时实现量产，只表示已开启了新架构的早鸟计划。

那么，理想汽车的端到端技术架构与其他家相比，有何不同？

什么是“端到端”？

要理解理想汽车的端到端技术架构，首先需要弄明白什么是端到端。

和传统自动驾驶相比，端到端技术将整个自动驾驶过程看作一个整体，通常使用一个深度学习模型（如神经网络）来直接从传感器数据（例如摄像头图像）映射到车辆控制指令（如转向、加速、刹车）。这个方法简化了系统的设计和集成，因为所有的功能都在一个统一的模型中实现。

端到端方法需要依赖大量的训练数据来训练深度学习模型，通过训练模型学习从环境感知到控制指令的直接映射关系。

作为比较，依靠传统方法实现自动驾驶的主要路径是，将自动驾驶系统分解为多个独立的模块，每个模块负责特定的任务。例如，感知模块负责识别和追踪物体，决策模块负责规划路径，控制模块负责执行驾驶指令。与端到端主要靠数据驱动不同，传统方法主要靠规则和算法驱动，即结合规则基础的方法（如规则引擎、决策树）和机器学习算法，通过各个模块的协作来完成自动驾驶任务。

以上是实现自动驾驶方法论中端到端和传统方法在底层设计上的不同之处。它们在实现自动驾驶的处理方式上也显著不同。

端到端自动驾驶直接将传感器数据（如摄像头图像）输入到神经网络中，模型通过训练学习如何将这些输入数据转化为驾驶控制指令。简单理解就是，神经网络在端到端模型中通常包含了感知、决策和控制的功能，决策过程较为一体化。

而传统自动驾驶的数据经过多个独立的模块处理，例如感知模块首先识别环境中的物体，然后传递给决策模块进行路径规划，最后控制模块将决策结果转化为实际的控制命令。它的显著特征是分步决策，就是每个模块的输出通常会传递给下一个模块，这种分层处理有助于在每个步骤中进行细化和调整。

二者的不同也反映出了各自的优缺点。

端到端自动驾驶的优点是极大精简了系统，减少了系统的复杂性，因为所有功能都在一个统一的模型中实现。端到端的另一个优点是拥有较强的自适应能力，深度学习模型能够通过大规模的数据学习复杂的环境模式，可以适应不同的驾驶条件和环境变化。这也是端到端方法更容易实现拟人驾驶的主要原因。

但端到端也有缺点。首先是需要海量的标注数据来训练模型。其次是可解释性差，因为深度学习模型通常被认为是“黑箱”，难以解释为什么做出某个决策。还有一个缺点是错误和故障的调试可能较为困难，因为模型的决策过程较为复杂。

相较端到端，传统自动驾驶的优势是模块化设计让系统的每个部分可以独立开发和优化，便于调试和维护。此外还具有透明性优势，因为每个模块的功能和决策过程较为明确，有助于理解系统行为。

传统自动驾驶的缺点则是各个模块之间的集成和协调较为复杂。此外灵活性也比较低，系统的适应能力不如端到端模型，因为需要针对每个模块进行细化调整。

可以看到，端到端在技术上具有前瞻性，它利用了深度学习和大数据来实现更智能的驾驶决策。更符合当下AI人工智能时代人们对技术的期待。

但实现端到端是有门槛的，首先需要海量的数据，这对一些没有卖出多少智能电动车的企业来说是一个瓶颈。此外端到端需要投入大规模算力来训练模型，这是一项烧钱的投入。

马斯克曾表示，特斯拉今年将在综合训练和推理人工智能方面投入100亿美元，后者主要用于汽车。“任何一家公司如何不能达到这一水平的投入，就无法参与竞争。”马斯克说。

可见，“上马”端到端自动驾驶，不是每家企业都能“玩”得起的。那么，理想汽车是如何构建自己的端到端自动驾驶技术架构的？

理想汽车的“端到端”

此前在6月8日的重庆论坛上，理想汽车创始人、董事长兼CEO李想就专门预热过理想基于端到端方法的自动驾驶技术架构。李想当时表示，最早今年年底、最晚明年年初，将推出“端到端+VLM 视觉模型+可验证的世界模型”的理想自研自动驾驶技术。

并明确表示，在理想车型现有的计算平台上，带有监督的L3级的自动驾驶，可以百分百实现。李想本人还表示，随着技术的演进和算力的增强，无监督的L3自动驾驶在3年内一定能够实现。

那么，李想承诺最晚明年初向用户推出的基于端到端自动驾驶功能，是如何构建的？

和特斯拉实现自动驾驶全程使用端到端方法不同，理想的汽车自动驾驶技术架构由三部分构成：端到端、VLM视觉模型和世界模型。

为何不直接全程使用端到端？理想汽车的考虑是，端到端的泛化能力（在不同场景和条件下的表现）如传统的分层设计方法，因为模型可能会过于依赖训练数据中的特定模式。考虑到中国的复杂路况，仅有端到端是不够的。

理想汽车构建自己的端到端自动驾驶的启发来源是一本书，这本书是诺贝尔经济学奖得主丹尼尔·卡尼曼写的《思考，快与慢》。这本书将人类的思维归纳为两大思考模式：系统1和系统2。系统1基于经验和习惯快速做出决定，特点是不费力；系统2是面对复杂和未知情况，需要运用思维推理能力，特点是要动用到注意力去做费力的心智活动，包括复杂的计算。简单理解就是，系统1和系统2互相关联和协作，帮助人类作出所有决策。

该理论对应到驾驶行为上是，系统1，善于处理简单任务，是人类基于经验和习惯形成的直觉，足以应对驾驶车辆时95%的常规场景。系统2，是人类通过更深入地理解与学习，形成的逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约5%。系统1和系统2相互配合，分别确保大部分场景下的高效率和少数场景下的高上限，成为人类认知、理解世界并做出决策的基础。

理想汽车基于快慢系统理论形成了自动驾驶算法架构的原型。系统1由端到端模型实现，具备高效、快速响应的能力。端到端模型接收传感器输入，并直接输出行驶轨迹用于控制车辆。系统2由VLM视觉语言模型实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统1。

端到端模型和VLM视觉语言模型构筑了理想自动驾驶的能力。端到端可以应对日常大部分的场景，VLM视觉语言模型则解决极端场景等泛化问题，以及为端到端兜底。但是光有端到端和VLM视觉语言模型，还不够。

因为端到端和LM视觉语言模型都是“黑盒子”属性。它们的内部决策机制复杂且难以解释。即使模型在某些测试环境下表现良好，但也很难完全理解和预测它在所有未知情况中的行为。

对此，理想从Sora视觉模型中找到原理，结合重建和生成两种技术路径，构建一个符合真实规律的新场景，让理想的车型在其中考试，用于评价自动驾驶系统在各种条件下的适应能力，以此保证在真实驾驶环境中的安全可靠。

总结来看，理想自研的这套拟人化的端到端自动驾驶的工作原理是，端到端相当于人的系统1，解决日常95%的驾驶场景；VLM视觉语言模型相当于人的系统2，解决5%的驾驶场景，提供兜底和泛化能力；再应用一个生成式的小视觉模型对自动驾驶能力进行考试。三个环节形成了理论上的自动驾驶安全闭环。

但需要指出的是，理想汽车的端到端自动驾驶目前还停留在PPT阶段，何时能实现量产，还存在不确定性。

哪里都能开的无图NOA

不过，尽管端到端自动驾驶还处于PPT阶段，但理想汽车的“无图NOA”推送进度总算赶上头部友商了。在夏季智能驾驶发布会上，理想汽车发布了将于7月内推送的OTA 6.0 版本，带来了用户心心念的无图NOA。这次智驾升级将覆盖理想L9/L8/L7/L6 以及MEGA的ADMax车型，惠及超过24万名用户。

完成升级后，理想汽车将成为华为、小鹏、蔚来之后，第四家拥有这一能力的厂商。理想汽车的无图NOA升级了四大重要能力，分别是哪里都能开、绕行丝滑、路口轻松过和带给用户的默契感和安心感。

值得说明的是“哪里都能开的功能升级”。此前实现高级别辅助驾驶，需要对一些信息进行提前验证，就像一个学生带着一本参考书去考试，在考试过程中需要不断翻阅参考资料，如果遇到参考书上也没有的习题，那可能就无法进行答题了。但如果学生自身能力不断提高，以后就能实现不带参考书也能考试了。

理想汽车的这次升级摆脱了对先验信息的依赖，背后逻辑就是辅助驾驶自身能力提升了，比如对道路结构的了解能力提升了。得益于此，只要有导航覆盖的范围，这次升级过后的理想无图NOA（导航辅助驾驶）均可去。不论是城市还是乡镇道路都能用，甚至是胡同窄路和乡村小路也能用。

此外，理想汽车7月内推送的OTA还升级了AEB（自动紧急制动）和 AES（自动紧急转向）功能。比如，在高速行驶遇到前方车辆急刹时，部分情况下即便触发AEB也有可能撞上去。这时候，此次升级的AES就能被及时触发，自动进行紧急转向，以避让前方目标。

另一个值得说明的升级是，在低速场景下，比如在复杂停车场，用户在停车过程中很可能会剐蹭。这次升级的全方位低速AEB功能，可以在这些情况下自动刹停，避免剐蹭。

可以看到，无图NOA的到来，缩小了理想汽车和头部智驾厂商的距离，甚至也有了可以宣布进入第一梯队的底气。而基于端到端方法的自动驾驶技术架构，则是理想能否在第一梯队站稳脚跟的考验。如果真如李想所说最晚明年第一季度实现，那么理想汽车端到端能力还停留在PPT上的说法，就不攻自破了。（本文首发于钛媒体App，作者｜王瑞昊，编辑｜张敏）

圖源：截圖自理想發佈會

2023年8月，特斯拉全自動駕駛系統FSD V12版本問世。此次迭代最與衆不同的升級是，用上了所有車企都未曾嘗試過的端到端架構。特斯拉也由此成爲第一家成功量產端到端技術架構的車企。

有特斯拉引路，各大車企紛紛擁抱端到端，全面轉向基於端到端大模型的自動駕駛路線。今年5月，小鵬率先宣佈端到端大模型上車；蔚來也在前不久宣佈轉向端到端研發，爲此專門成立了大模型研發部門。

當下，不管研發層面是否達到端到端的要求，各大車企在宣傳層面都爭先恐後地“站隊”端到端。一時間，小鵬、蔚來、小米、極越、智己、廣汽、長城、極氪等，都表態會實現端到端上車。端到端儼然成爲車企爭搶自動駕駛第一梯隊的最佳例證。

最近，理想汽車也宣佈要實現端到端技術架構上車。在智能駕駛夏季發佈會上，理想汽車宣佈將於7月內向全量理想AD Max用戶推送“全國都能開”的無圖NOA。同時，理想汽車還發布了由“端到端模型+VLM視覺語言模型+世界模型”組成的全新自動駕駛技術架構。但沒有說明何時實現量產，只表示已開啓了新架構的早鳥計劃。

那麼，理想汽車的端到端技術架構與其他家相比，有何不同？

什麼是“端到端”？

要理解理想汽車的端到端技術架構，首先需要弄明白什麼是端到端。

和傳統自動駕駛相比，端到端技術將整個自動駕駛過程看作一個整體，通常使用一個深度學習模型（如神經網絡）來直接從傳感器數據（例如攝像頭圖像）映射到車輛控制指令（如轉向、加速、剎車）。這個方法簡化了系統的設計和集成，因爲所有的功能都在一個統一的模型中實現。

端到端方法需要依賴大量的訓練數據來訓練深度學習模型，通過訓練模型學習從環境感知到控制指令的直接映射關係。

作爲比較，依靠傳統方法實現自動駕駛的主要路徑是，將自動駕駛系統分解爲多個獨立的模塊，每個模塊負責特定的任務。例如，感知模塊負責識別和追蹤物體，決策模塊負責規劃路徑，控制模塊負責執行駕駛指令。與端到端主要靠數據驅動不同，傳統方法主要靠規則和算法驅動，即結合規則基礎的方法（如規則引擎、決策樹）和機器學習算法，通過各個模塊的協作來完成自動駕駛任務。

以上是實現自動駕駛方法論中端到端和傳統方法在底層設計上的不同之處。它們在實現自動駕駛的處理方式上也顯著不同。

端到端自動駕駛直接將傳感器數據（如攝像頭圖像）輸入到神經網絡中，模型通過訓練學習如何將這些輸入數據轉化爲駕駛控制指令。簡單理解就是，神經網絡在端到端模型中通常包含了感知、決策和控制的功能，決策過程較爲一體化。

而傳統自動駕駛的數據經過多個獨立的模塊處理，例如感知模塊首先識別環境中的物體，然後傳遞給決策模塊進行路徑規劃，最後控制模塊將決策結果轉化爲實際的控制命令。它的顯著特徵是分步決策，就是每個模塊的輸出通常會傳遞給下一個模塊，這種分層處理有助於在每個步驟中進行細化和調整。

二者的不同也反映出了各自的優缺點。

端到端自動駕駛的優點是極大精簡了系統，減少了系統的複雜性，因爲所有功能都在一個統一的模型中實現。端到端的另一個優點是擁有較強的自適應能力，深度學習模型能夠通過大規模的數據學習複雜的環境模式，可以適應不同的駕駛條件和環境變化。這也是端到端方法更容易實現擬人駕駛的主要原因。

但端到端也有缺點。首先是需要海量的標註數據來訓練模型。其次是可解釋性差，因爲深度學習模型通常被認爲是“黑箱”，難以解釋爲什麼做出某個決策。還有一個缺點是錯誤和故障的調試可能較爲困難，因爲模型的決策過程較爲複雜。

相較端到端，傳統自動駕駛的優勢是模塊化設計讓系統的每個部分可以獨立開發和優化，便於調試和維護。此外還具有透明性優勢，因爲每個模塊的功能和決策過程較爲明確，有助於理解系統行爲。

傳統自動駕駛的缺點則是各個模塊之間的集成和協調較爲複雜。此外靈活性也比較低，系統的適應能力不如端到端模型，因爲需要針對每個模塊進行細化調整。

可以看到，端到端在技術上具有前瞻性，它利用了深度學習和大數據來實現更智能的駕駛決策。更符合當下AI人工智能時代人們對技術的期待。

但實現端到端是有門檻的，首先需要海量的數據，這對一些沒有賣出多少智能電動車的企業來說是一個瓶頸。此外端到端需要投入大規模算力來訓練模型，這是一項燒錢的投入。

馬斯克曾表示，特斯拉今年將在綜合訓練和推理人工智能方面投入100億美元，後者主要用於汽車。“任何一家公司如何不能達到這一水平的投入，就無法參與競爭。”馬斯克說。

可見，“上馬”端到端自動駕駛，不是每家企業都能“玩”得起的。那麼，理想汽車是如何構建自己的端到端自動駕駛技術架構的？

理想汽車的“端到端”

此前在6月8日的重慶論壇上，理想汽車創始人、董事長兼CEO李想就專門預熱過理想基於端到端方法的自動駕駛技術架構。李想當時表示，最早今年年底、最晚明年年初，將推出“端到端+VLM 視覺模型+可驗證的世界模型”的理想自研自動駕駛技術。

並明確表示，在理想車型現有的計算平台上，帶有監督的L3級的自動駕駛，可以百分百實現。李想本人還表示，隨着技術的演進和算力的增強，無監督的L3自動駕駛在3年內一定能夠實現。

那麼，李想承諾最晚明年初向用戶推出的基於端到端自動駕駛功能，是如何構建的？

和特斯拉實現自動駕駛全程使用端到端方法不同，理想的汽車自動駕駛技術架構由三部分構成：端到端、VLM視覺模型和世界模型。

爲何不直接全程使用端到端？理想汽車的考慮是，端到端的泛化能力（在不同場景和條件下的表現）如傳統的分層設計方法，因爲模型可能會過於依賴訓練數據中的特定模式。考慮到中國的複雜路況，僅有端到端是不夠的。

理想汽車構建自己的端到端自動駕駛的啓發來源是一本書，這本書是諾貝爾經濟學獎得主丹尼爾·卡尼曼寫的《思考，快與慢》。這本書將人類的思維歸納爲兩大思考模式：系統1和系統2。系統1基於經驗和習慣快速做出決定，特點是不費力；系統2是面對複雜和未知情況，需要運用思維推理能力，特點是要動用到注意力去做費力的心智活動，包括複雜的計算。簡單理解就是，系統1和系統2互相關聯和協作，幫助人類作出所有決策。

該理論對應到駕駛行爲上是，系統1，善於處理簡單任務，是人類基於經驗和習慣形成的直覺，足以應對駕駛車輛時95%的常規場景。系統2，是人類通過更深入地理解與學習，形成的邏輯推理、複雜分析和計算能力，在駕駛車輛時用於解決複雜甚至未知的交通場景，佔日常駕駛的約5%。系統1和系統2相互配合，分別確保大部分場景下的高效率和少數場景下的高上限，成爲人類認知、理解世界並做出決策的基礎。

理想汽車基於快慢系統理論形成了自動駕駛算法架構的原型。系統1由端到端模型實現，具備高效、快速響應的能力。端到端模型接收傳感器輸入，並直接輸出行駛軌跡用於控制車輛。系統2由VLM視覺語言模型實現，其接收傳感器輸入後，經過邏輯思考，輸出決策信息給到系統1。

端到端模型和VLM視覺語言模型構築了理想自動駕駛的能力。端到端可以應對日常大部分的場景，VLM視覺語言模型則解決極端場景等泛化問題，以及爲端到端兜底。但是光有端到端和VLM視覺語言模型，還不夠。

因爲端到端和LM視覺語言模型都是“黑盒子”屬性。它們的內部決策機制複雜且難以解釋。即使模型在某些測試環境下表現良好，但也很難完全理解和預測它在所有未知情況中的行爲。

對此，理想從Sora視覺模型中找到原理，結合重建和生成兩種技術路徑，構建一個符合真實規律的新場景，讓理想的車型在其中考試，用於評價自動駕駛系統在各種條件下的適應能力，以此保證在真實駕駛環境中的安全可靠。

總結來看，理想自研的這套擬人化的端到端自動駕駛的工作原理是，端到端相當於人的系統1，解決日常95%的駕駛場景；VLM視覺語言模型相當於人的系統2，解決5%的駕駛場景，提供兜底和泛化能力；再應用一個生成式的小視覺模型對自動駕駛能力進行考試。三個環節形成了理論上的自動駕駛安全閉環。

但需要指出的是，理想汽車的端到端自動駕駛目前還停留在PPT階段，何時能實現量產，還存在不確定性。

哪裏都能開的無圖NOA

不過，儘管端到端自動駕駛還處於PPT階段，但理想汽車的“無圖NOA”推送進度總算趕上頭部友商了。在夏季智能駕駛發佈會上，理想汽車發佈了將於7月內推送的OTA 6.0 版本，帶來了用戶心心念的無圖NOA。這次智駕升級將覆蓋理想L9/L8/L7/L6 以及MEGA的ADMax車型，惠及超過24萬名用戶。

完成升級後，理想汽車將成爲華爲、小鵬、蔚來之後，第四家擁有這一能力的廠商。理想汽車的無圖NOA升級了四大重要能力，分別是哪裏都能開、繞行絲滑、路口輕鬆過和帶給用戶的默契感和安心感。

值得說明的是“哪裏都能開的功能升級”。此前實現高級別輔助駕駛，需要對一些信息進行提前驗證，就像一個學生帶着一本參考書去考試，在考試過程中需要不斷翻閱參考資料，如果遇到參考書上也沒有的習題，那可能就無法進行答題了。但如果學生自身能力不斷提高，以後就能實現不帶參考書也能考試了。

理想汽車的這次升級擺脫了對先驗信息的依賴，背後邏輯就是輔助駕駛自身能力提升了，比如對道路結構的了解能力提升了。得益於此，只要有導航覆蓋的範圍，這次升級過後的理想無圖NOA（導航輔助駕駛）均可去。不論是城市還是鄉鎮道路都能用，甚至是衚衕窄路和鄉村小路也能用。

此外，理想汽車7月內推送的OTA還升級了AEB（自動緊急制動）和 AES（自動緊急轉向）功能。比如，在高速行駛遇到前方車輛急剎時，部分情況下即便觸發AEB也有可能撞上去。這時候，此次升級的AES就能被及時觸發，自動進行緊急轉向，以避讓前方目標。

另一個值得說明的升級是，在低速場景下，比如在複雜停車場，用戶在停車過程中很可能會剮蹭。這次升級的全方位低速AEB功能，可以在這些情況下自動剎停，避免剮蹭。

可以看到，無圖NOA的到來，縮小了理想汽車和頭部智駕廠商的距離，甚至也有了可以宣佈進入第一梯隊的底氣。而基於端到端方法的自動駕駛技術架構，則是理想能否在第一梯隊站穩腳跟的考驗。如果真如李想所說最晚明年第一季度實現，那麼理想汽車端到端能力還停留在PPT上的說法，就不攻自破了。（本文首發於鈦媒體App，作者｜王瑞昊，編輯｜張敏）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

追随特斯拉，理想汽车也搞“端到端”｜钛度车库