share_log

万字硬核解读:“端到端”让特斯拉FSD V12迎来质变?

萬字硬核解讀:「端到端」讓特斯拉FSD V12迎來質變?

騰訊科技 ·  08/18 09:54

來源:騰訊科技
作者:郭曉靜

在2022的Q4業績會議上,馬斯克曾自信地宣稱在自動駕駛領域特斯拉處於遙遙領先的絕對第一,「拿望遠鏡都找不到第二名」,彼時 $特斯拉(TSLA.US)$ 的自動駕駛已經跳票6年,《華爾街日報》委婉地表示不再相信馬斯克……

一年後,特斯拉在2024年初開始在一定範圍內推送FSD V12,並於同年3月將FSD Beta改名爲FSD Supervised,特斯拉智駕團隊負責人AShok Elluswamy在X(推特)上發文稱基於「端到端」(「end-to-end」)的FSD V12在數月的訓練時間內,已經完全超過了數年積累的V11。

圖1.AShok Elluswamy在X(原推特)上發文
圖1.AShok Elluswamy在X(原推特)上發文

同時FSD V12的推出很快得到了業界的積極回應,英偉達CEO黃仁勳在接受外媒採訪時高度評價「特斯拉在自動駕駛方面遙遙領先。特斯拉第12版全自動駕駛汽車真正具有革命性的一點是,它是一個端到端的生成模型。」

Michael Dell (戴爾科技集團董事長兼CEO)在X上表示「全新的V12版本令人印象深刻,它就像人類司機一樣」;

Brad Porter(曾任Scale AI首席技術官、亞馬遜機器人副總裁)同樣稱「FSD V12就像是ChatGPT 3.5到來的時刻一樣,它並不完美,但令人印象深刻,你可以看出這是完全不同的東西,迫不及待地期待它進化到GPT4那樣」;

就連曾經對特斯拉「劍拔弩張」的小鵬汽車董事長何小鵬,在試駕完FSDV12後也在微博上評價「FSD V12.3.6表現極好,要向其學習」,並且他還表示「今年的FSD和以前的Tesla自動駕駛從能力上完全是兩個,我非常讚賞」。

圖2.英偉達CEO黃仁勳接受採訪時表示特斯拉自動駕駛遙遙領先
圖2.英偉達CEO黃仁勳接受採訪時表示特斯拉自動駕駛遙遙領先

那究竟是什麼樣的改動,讓FSD V12如醍醐灌頂般在短短几個月的時間就超越了過去數年的積累?這一切都要歸因於「端到端」的加入,而要想系統地了解特斯拉FSD V12前後版本翻天覆地的變化,則要從自動駕駛的基本框架以及FSD V12的前世講起。

爲了讓大家讀完本文都能有所收穫,我力爭降維到小學生模式,在保證專業度的同時增加可讀性,用通俗易懂的表達將自動駕駛的基本框架概念、FSD V12的前世今生講清楚,讓沒有任何專業背景知識的小學生也能輕鬆搞懂。

讀完本文後,你會對當下自動駕駛行業最火且達成共識的「端到端」以及曾經爆火的「模塊化」、「BEV鳥瞰圖 +Transformer」、「Occupancy 佔用網絡」等相關概念有清晰的認知。除此之外,你還會了解特斯拉V12爲何是突破性的、爲何自動駕駛的ChatGPT時刻即將到來,同時你也會對當下自動駕駛行業發展到哪一步形成初步的判斷。

文章有些長,但耐心讀完後,一定有所收穫。

01 初識自動駕駛:模塊化到端到端

1.1 自動駕駛分級

在正式開始前,我們需要對自動駕駛的整體框架有一個了解:目前被國內外廣泛接受的自動駕駛分級標準是SAE(國際汽車工程學會)的分級,從L0-L5共6個級別,隨着級別的上升,車輛對駕駛員手動應急接管的需求越來越小,自動駕駛系統的功能也越來越齊全,到了L4、L5級別後便不再需要駕駛員接管駕駛(理論上在這兩個階段,方向盤、踏板都無需安裝)。

圖3.SAE J3016自動駕駛分級
圖3.SAE J3016自動駕駛分級

L0級:無自動化

L1級:「部分解放司機雙腳」輔助駕駛

L2級:「部分解放司機雙手」(部分自動化)當前發展階段

L3級:「部分解放司機雙眼」(有條件自動化)當前發展階段

L4級:「解放司機大腦」(高度自動化)

L5級:「無人」(完全自動化)

1.2 自動駕駛設計理念:模塊化 vs 端到端

了解清楚自動駕駛分級的基本框架後,我們便需要進一步了解車輛是怎樣實現自動駕駛的。自動駕駛的設計理念可以分爲兩類,分別是傳統的模塊化設計端到端設計。在2023年特斯拉的標杆作用下,現在端到端自動駕駛已經逐漸成爲了行業和學術界的共識。(2023 年 CVPR 最佳論文獎的 UniAD便採用的端到端,體現學術界對該設計理念的認同;自動駕駛行業中,繼特斯拉後,華爲、理想、小鵬、蔚來等多家智駕公司紛紛跟進端到端,代表業界對該理念的認同。)

1.2.1模塊化

圖4.模塊化架構簡潔示意圖
圖4.模塊化架構簡潔示意圖

在比較兩個設計理念的優劣前,我們首先來拆解下什麼是模塊化設計:它包含感知、決策規劃、執行控制三大模塊(如圖4所示),研究人員可以通過調試每個模塊的參數來使車輛適應各種場景。

感知模塊:負責收集和解釋車輛周圍環境的信息,通過各種傳感器(比如攝像頭、激光雷達、雷達、毫米波等)檢測和識別周圍物體(比如其他交通參與者、信號燈、道路標誌)——感知模塊是自動駕駛的核心,在端到端上車之前大部分的技術迭代都集中在感知模塊,核心目的就是讓汽車的感知水平達到人類水平,讓你的汽車能夠像你在開車時一樣注意到紅燈、加塞車輛甚至是馬路上的一條狗。

注:在給車輛提供感知信息的部分還包括定位部分,比如有些企業會使用高精地圖來確定車輛在環境中的精確位置(但高精地圖成本高、且精確數據的獲取有很大難度,不易推廣)。

決策規劃模塊:基於感知模塊輸出的結果,預測其他交通參與者的行爲和意圖,並制定車輛的行駛策略,確保車輛能到安全、高效、舒適地到達目的地。這個模塊就像是車輛的大腦(前額葉部分),隨時根據已輸入的代碼規則(Rule based)思考着最佳的行駛路徑、何時超車/變道、面對加塞車輛時是讓還是不讓、在感受到紅綠燈時是走還是不走、在看到外賣小哥佔道行駛時是超還是不超等問題。

——在這部分車輛是基於代碼規則來進行決策的,舉一個最簡單的例子,車輛的代碼寫入紅燈停綠燈行、見到行人要讓行的指令,那麼在對應的場景下,我們的汽車便會根據提前寫好的代碼規則進行決策規劃,但如果出現沒有寫進規則的情況,那麼我們的車便不知該如何應對了。

控制模塊:執行決策模塊輸出的行駛策略,控制車輛的油門、剎車和轉向。如果說決策模塊是大腦軍師的話,那麼控制模塊就是聽從軍令的士兵,「指哪打哪」。

圖4.詳細的模塊化架構示意圖 資料來源:國信證券
圖4.詳細的模塊化架構示意圖 資料來源:國信證券

模塊化的優缺點

  • 優點:可解釋、可驗證、易調試

因爲每個模塊都是相對獨立的,所以當我們的車輛出現問題時我們可以回溯究竟是哪個模塊出現了問題;在出現問題後,我們只需要在原有代碼規則的基礎上調整對應的參數即可,簡單來說「比如我們自動駕駛的車輛在面對其他車輛加塞時,剎車過猛,那我們只需要調整加塞情況下,車輛的速度、加速度該如何變化即可」。

  • 缺點:傳遞過程中信息損耗、任務多且散導致低效、存在複合誤差、規則難以窮盡導致構建和維護成本高。

信息在傳遞過程中存在損耗:傳感器的信息從進入感知模塊再到控制模塊輸出,中間經歷了多個環節,信息在傳遞過程中除了效率變低以外不可避免地會有信息的損耗;舉一個簡單的例子比如在傳話遊戲中,第一個人說的是「你好」,經過中間幾個人的傳遞後,到最後一個人那裏可能變成風馬牛不相及的「李吼」。

圖5.傳話遊戲示意圖
圖5.傳話遊戲示意圖

規則難以窮盡導致構建和維護成本高:大家如果理解了模塊化的基本邏輯後,便知道模塊化是基於規則的,車輛在道路上做的所有決策背後都是一條一條的規則,而規則的背後則是一條一條的代碼,程序員提前將道路上的規則以代碼的形式寫好,車輛在對應情況的時候便根據寫好的規則遍歷所有可能選出最優解,進行決策進而採取相應的行爲。

說到這裏大家可能覺得沒什麼,我們直接把類似於紅燈停、綠燈行的這些規則都寫進去不就好了,然而工程師很難窮盡路上的所有情況,因爲真實的物理世界是一直在變化的,有無數種排列組合,我們只能預期到常規的事情並把它寫進規則中,但是小概率的極端事件也是會發生的(比如道路上突然出現一隻猴子在和人打架),所以依靠代碼堆疊規則到最後只能苦嘆一聲「人力有時窮」。

1.2.2 端到端

講完了模塊化,我們接下來就看下目前行業最認可的端到端究竟是怎麼一回事兒。所謂端到端(End-to-End)就是信息一頭進入一頭輸出,中間沒有各個模塊傳輸來傳輸去,一站式搞定。

也就是基於統一的神經網絡從原始傳感器數據輸入直接到控制指令輸出的連續學習與決策過程,過程中不涉及任何顯式的中間表示或人爲設計的模塊,不再需要工程師人爲寫無窮盡的代碼了,除此之外;其另一個核心理念就是無損的信息傳遞(原來可能是多人傳話遊戲,端到端就變成了你說我聽)。

圖6.模塊化vs端到端架構簡潔示意圖
圖6.模塊化vs端到端架構簡潔示意圖

我列舉兩個例子來給大家講解模塊化和端到端的區別:模塊化設計理念下的車輛就好像是在駕校學車的、沒有自主意識、且不會主動模仿學習的新手司機,教練說做什麼他就做什麼(編寫代碼規則),教練跟它說紅燈要停下來、遇到行人要禮讓,它就按照教練的說法做,如果遇到教練沒說過的事兒,它就愣在那裏不會處理了(武漢「芍蘿蔔」)。

而端到端設計理念下的車輛則是一個擁有自主意識並且會主動模仿學習的新手司機,它會通過觀察別人的駕駛行爲來學習,最開始它就像一個菜鳥一樣,什麼也不會,但是它是個好學的孩子,在給它觀看了成百上千萬的優秀老司機怎麼開車的視頻後,它慢慢就變成了真正的老司機,然後它的表現只能用一個字來形容,那就是「穩」!

圖7.模塊化vs端到端
圖7.模塊化vs端到端

資料來源:Li, Xin, et al. Towards knowledge-driven autonomous driving 華鑫證券研究

如圖7所示,基於一條一條代碼規則驅動的模塊化設計理念的車輛,讀到大學就無法再往上進修了,而基於數據驅動(給車輛看的老司機開車的視頻就是所謂的數據)的端到端雖然初期是在小學,但它具備很強的成長性和學習性(強化學習和模仿學習),可以很快地進修到博士。(就像餘承東評價「Fsd下限低,上限高那樣」,但只要你有足夠多的數據,給予它足夠多的老司機駕駛的視頻,它不便不會停留在低水平太長時間)。

當然,目前圍繞端到端的基本定義仍然存在爭議,「技術原教旨主義者」認爲,市面上很多公司宣傳的「端到端」並不是真正的端到端(比如模塊化的端到端),他們認爲真正的端到端應該是全局端到端,從傳感器輸入到最後控制信號輸出,中間所有步驟都是端到端可導的,可進行全局優化;而「實用主義者」則認爲只要基本原理符合,能讓自動駕駛車輛的性能表現提升就可以。

端到端的三大劃分

有的朋友看到這裏可能有些懵,端到端也有不同劃分?是的沒錯,目前端到端主要可以劃分成三類(目前存在多種不同劃分,爲了便於大家理解,本文只列舉英偉達GTC大會的劃分),如圖8所示可以分成顯式端到端、隱式端到端、基於大語言模型的端到端。

圖8.端到端自動駕駛算法形成三大落地形式
圖8.端到端自動駕駛算法形成三大落地形式

資料來源:英偉達GTC大會、開源證券研究所整理

顯式端到端

顯式端到端自動駕駛將原有的算法模塊以神經網絡進行替代,並連接形成端到端算法。該算法包含可見的算法模塊,可以輸出中間結果,當進行故障回溯時可以一定程度上進行白盒化調整。在這個情況下,便不再需要工程師一行一行去敲代碼來撰寫規則了,決策規劃模塊從手寫規則向基於深度學習的模式進行轉變。

看起來有些抽象難懂,我們用大白話來講的話就是端到端了但又沒有完全端到端(也叫做模塊化的端到端),而所謂的白盒其實是相對於黑盒而言的,在後面隱式端到的部分我會用新手司機的例子來展開講,這裏看不懂不要緊可以先行跳過。

獲得2023年CVPR最佳論文的UniAD模型就是採用的顯式端到端,如下圖所示,我們能夠明顯觀察到各個感知、預測規劃等模塊採用了向量的方式進行連接。

注:顯示端到端需要結合隱式端到端一起理解,不要孤立開;顯式端

資料來源:Hu, Yihan, et al. Planning-oriented autonomous driving.
資料來源:Hu, Yihan, et al. Planning-oriented autonomous driving.

隱式端到端

隱式的端到端算法構建整體化的基礎模型,利用海量的傳感器接收的外部環境數據,忽略中間過程,直接監督最終控制信號進行訓練。「技術原教旨主義者」認爲如圖9這樣的傳感器信息一頭進入另一頭直接輸出控制信號的端到端才是真正的端到端,中間沒有任何額外模塊。

前面我們提過顯式端到端,通過比較圖8和圖9,能夠看出明顯的區別就是:隱式一體化的全局端到端中間沒有各個模塊,只有神經網絡存在(傳感器就是它觀看世界的方式,中間的端到端系統就是它的完整的大腦,方向盤、剎車油門就是它的四肢);而顯式端到端不同的地方在於它把中間完整的大腦按照模塊化的方式給分開了,雖然它不再需要編寫代碼去學習各種各樣的規則,已經逐漸可以通過觀看老司機視頻的方式學習,但是,它依舊是分模塊去做的,所以批評的聲音會認爲其不是真正意義上的端到端。

但這樣做也有它的好處,我們在前面提到過顯式端到端在一定程度上是白盒的,這是因爲當我們的車輛通過學習湧現出一些我們不期望的糟糕行爲時,我們可以回溯究竟是哪個模塊的端到端出現了問題,而作爲黑盒模型的隱式端到端則無從下手,因爲它是完全一體化的,創造它的人也不知道它爲什麼會這樣做(這就是大家老在網上聽到的黑盒的大概意思)。

圖9.隱式端到端
圖9.隱式端到端

資料來源: PS Chib, et al. Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey

生成式AI大模型的端到端

ChatGPT爲自動駕駛帶來了極大的啓發。它運用無需標註且成本低廉的海量數據進行訓練,還具備人機互動以及回答問題的功能。自動駕駛可以效仿這種人機互動的模式,輸入環境方面的問題,它直接輸出駕駛決策,通過基於大語言模型的端到端來完成這些任務的訓練運算。

AI大模型的主要作用有兩點,一是可以低成本生成海量接近真實的、包含Corner Case(自動駕駛過程中很少出現但可能導致危險的異常情況)的多樣化訓練視頻數據,二是採用強化學習的方法來達到端到端的效果,從視頻感知到直接輸出駕駛決策。其核心就是模型可以通過自然數據自己推理學習因果,不再需要標註,模型整體的泛化能力得到大幅度提升,類似ChatGPT那樣,以自回歸的方式從上一個場景預測下一個場景。

讓我們用更簡單的話來講一下大模型對於端到端的重要性:

目前自動駕駛數據庫的價值極低:通常包括兩種數據,一種是正常行駛情況,千篇一律,佔公開數據約 90%,如特斯拉影子模式。馬斯克承認這種數據價值較低,有效性可能僅萬分之一甚至更低。另一種就是事故數據即錯誤示範。用其做端到端訓練,要麼只能適應有限工況,要麼會出錯。端到端是黑盒子,無法解釋、只有相關性,需高質量、多樣化的數據,訓練結果才可能好點。

端到端需先解決數據問題,靠外界採集不太可行,因爲成本高、效率低且缺乏多樣化和交互(自車與其他車輛、環境的交互,需昂貴人工標註),因此引入生成式AI大模型,它能製造海量多樣化的數據,減少人工標註,降低成本。

除此之外大語言模型端到端的核心邏輯是預測未來發展,本質是習得因果關係。當前神經網絡與人類有差距,神經網絡是概率輸出,知其然而不知其所以然;人類可通過觀察及無監督交互學習物理世界運行常識,能判斷合理與不可能,通過少量試驗學習新技能並預測自身行爲後果。而生成式AI端到端大模型就是希望神經網絡也具備像人類這樣舉一反三的能力。

舉個例子來說:我們人類司機肯定會遇到一些沒有見過但可能有危險的情況,雖然沒有經歷過,但是通過往的經驗我們可以推斷出這個情況做什麼才能保住小命(比如我們可能都沒有經歷過路上出現一個霸王龍的現象,但當霸王龍真的出現後,我們肯定會抓緊開車逃跑),通過過往經驗推測並判斷行爲合理與否,這就是我們希望大語言模型端到端做的事情,希望我們的車輛真正地像人一樣開車。

世界模型應用於自動駕駛的綜合解決方案
世界模型應用於自動駕駛的綜合解決方案

資料來源: Guan, Yanchen, et al. "World models for autonomous driving: An initial survey."

目前由於特斯拉還未召開第三次AI Day,所以我們暫時不清楚特斯拉端到端的具體網絡架構,但是根據特斯拉自動駕駛負責人Ashok在2023CVPR以及馬斯克本人的一些回覆,可以推測特斯拉的端到端模型很有可能是基於大語言模型的端到端(World model)。(期待特斯拉的第三次AI Day)

端到端的優缺點

圖10.端到端架構簡潔示意圖
圖10.端到端架構簡潔示意圖
  • 優點:無損的信息傳遞、完全由數據驅動、具備學習能力更具範化性

隨着感知、決策規劃端到端自動駕駛路徑逐漸清晰,端到端爲邁向L4無人駕駛提供了想象空間。

  • 缺點:不可解釋、參數過大,算力不足、幻覺問題

如果你用過ChatGPT之類的大語言模型,那你就會知道有些時候它會一本正經的胡說八道(也就是幻覺問題),聊天時胡說八道無關痛癢,但是!如果在馬路上,你的車輛一本正經的胡亂開,可是會要人命的!而且因爲黑盒問題,你還沒辦法回溯原因所在,這是便是目前端到端急需解決的問題,目前常見的解決方案便是加入安全冗餘。

圖11.華爲ads3.0本能安全網絡
圖11.華爲ads3.0本能安全網絡

除此之外,端到端落地同樣還面臨着算力和數據的巨大需求,根據辰韜資本的報告顯示,儘管大部分公司表示 100 張大算力 GPU 可以支持一次端到端模型的訓練,但這並不意味着端到端進入量產階段只需要這一數量級的訓練資源。大部分研發端到端自動駕駛的公司目前的訓練算力規模在千卡級別,隨着端到端逐漸走向大模型,訓練算力將顯得捉襟見肘。而算力的背後就是錢(並且由於美國禁止向中國實體出售高端芯片使這一困境加劇),就像理想汽車的郎咸朋說的那樣,「智能駕駛未來一年10億美元只是入場券」。

講到這裏,我們便把自動駕駛最基礎的一些框架性內容講完了(因爲篇幅有限,故只包含了一小部分),從歷史的眼光回頭看,自動駕駛的進步基本上就是沿着特斯拉既定的路線往前走的(這中間各個廠商會在其原有路線的基礎上有所創新,但本質並未偏離),從某種程度上來說,或許能跟住特斯拉本身就是一種能力。接下來,我將會從模塊化和端到端的發展給大家展開講一下特斯拉FSD V12的前世今生。

02 特斯拉FSD的前世今生,能跟住特斯拉本身就是一種能力?

2.1特斯拉FSD V12的前世

特斯拉智能駕駛的發展史在一定程度上反應了自動駕駛行業最重要的一條路線的發展史,在2014年時,特斯拉發佈第一代硬件Hardware 1.0,軟硬件均由Mobileye(一家以色列的汽車科技公司)提供,然而整體合作隨着2016年特斯拉「全球首宗自動駕駛致命事故」而結束(這裏的核心原因在於Mobileye提供的是封閉黑盒方案,特斯拉不能修改其中的算法,而且還不能與Mobileye共享車輛數據)。

圖12.特斯拉智能駕駛發展歷程
圖12.特斯拉智能駕駛發展歷程

資料來源:特斯拉官網、國信證券研究所

2016到2019則是特斯拉的自研過渡期。在2019年Hardware升級到了3.0版本,並且採用第一代自主研發的FSD1.0芯片,增加了影子模式功能,幫助特斯拉收集大量的自動駕駛數據,爲其純視覺路線打下基礎。

2019到2024FSD V12.0大範圍推廣前,是其全面自研時期,2019年算法架構向神經網絡升級提出HydraNet九頭蛇算法,2020開始聚焦純視覺-,並在2021和2022的AI Day上接連公佈了BEV和Occupancy網絡架構,在北美驗證了BEV +Transformer+Occupancy的感知框架,國內廠商開始紛紛跟進(這中間差了1-2年左右)。

我們在前面提到過,模塊化智能駕駛設計理念中最核心的部分就是感知模塊,也就是我們要如何讓車輛更好地理解傳感器(攝像頭、雷達、毫米波等)輸入的信息,而上面所提的一堆概念以及特斯拉在FSD V12版本之前做的大部分事情都是在讓感知模塊變得更智能,從某種程度上可以理解爲讓感知模塊走向端到端,因爲要想讓車能夠自動駕駛,第一步就是讓它真實客觀地感受這動態變化的物理世界。

其次才是給它制定行駛規則(決策規劃模塊),而決策規劃模塊較爲傳統,採用蒙特卡洛樹搜索+神經網絡的方案(類似谷歌AlphaGo下圍棋的方案),快速遍歷所有可能性找出勝率最高的那條路徑,其中包含了大量人爲輸入的代碼規則,即根據大量預先設定的人爲規則來在道路中設想並選擇最佳的軌跡(遵守交規且不碰撞其他交通參與者),而控制模塊更多是油門剎車方向盤等硬件層面的事情。

因爲感知模塊是進步變化最核心的部分,接下來我會盡量用通俗易懂的話講解其中包含的這些概念的基本作用,以及它們分別解決了什麼問題(因爲文字篇幅有些,所以有所精簡)。

2.1.1特斯拉FSD感知側的進化

2017年,之前在斯坦福任教的Andrej Karpathy加入特斯拉,標誌着特斯拉感知側端到端的進化拉開序幕:

(1)HydraNet九頭蛇算法—2021年特斯拉AI DAY公佈

HydraNet是特斯拉開發的一種複雜的神經網絡,用來幫助汽車「看見」和「理解」周圍的環境。HydraNet這個名字來源於希臘神話中的九頭蛇「Hydra」。這個網絡系統也像多頭蛇一樣,有多個「頭」可以同時處理不同的任務。這些任務包括物體檢測、紅綠燈識別、車道預測等。而它的三大優點就是特徵共享、任務解耦、能緩存特徵更高效微調。

特徵共享:通俗來講就是基於HydraNet的主幹網絡backbone處理最基本的信息,然後再把處理過的信息共享給它的不同小腦袋(head),好處在於每個「小腦袋」不用重複處理相同的信息,可以更高效地完成各自的任務。

任務解耦:將特定任務與主幹分離,能夠單獨微調任務;每個「小腦袋」專門負責一種任務,比如一個負責識別車道線,另一個負責識別行人,等等。這些任務之間互不干擾,各自獨立完成。

能緩存特徵更高效微調:通過限制信息流動的複雜度,確保只有最重要的信息傳遞給各個「小腦袋」,這個「瓶頸」部分能夠緩存重要特徵,並加速微調過程。

圖13. HydraNet九頭蛇框架 資料來源:2021特斯拉AI Day
圖13. HydraNet九頭蛇框架 資料來源:2021特斯拉AI Day

(2)BEV(Birds’Eye View鳥瞰視角+Transformer)—2021年特斯拉AI DAY公佈

平面圖像走向3D鳥瞰空間

HydraNet幫自動駕駛的車輛完成了識別的工作,而對於車輛周圍環境的感知則由BEV(Birds’Eye View鳥瞰視角)+ Transformer完成,兩者的結合幫助特斯拉完成了將八個攝像頭捕捉到的2維平面圖片轉換爲3D向量空間的工作(也可以由激光雷達完成,但激光雷達的成本要遠遠高於攝像頭)。

鳥瞰圖是一種從上往下俯視的視角,就像你在高空中俯視地面一樣。特斯拉的自動駕駛系統使用這種視角來幫助汽車理解周圍的環境。通過將多個攝像頭拍攝到的圖像拼接在一起,系統可以生成一個完整的道路和周圍環境的平面圖(2D)。

而Transformer能將來自不同攝像頭和傳感器的數據有效融合,像一個超級聰明的拼圖高手,將不同角度的圖像拼成一個完整的環境視圖。將這些平面視角數據融合成一個統一的3D視角的鳥瞰圖景。這樣,系統可以全面、準確地理解周圍的環境(如圖14所示)。

圖14.平面圖轉換爲3D「向量空間」資料來源:特斯拉AI Day
圖14.平面圖轉換爲3D「向量空間」資料來源:特斯拉AI Day

而且BEV+Transformer可以消除遮擋和重疊,實現「局部」端到端優化,感知和預測都在同一個空間進行,輸出「並行」結果。

圖15.BEV+Transformer 資料來源:2021特斯拉AI Day
圖15.BEV+Transformer 資料來源:2021特斯拉AI Day

(3)Occupancy Network佔用網絡——2022年特斯拉AI DAY公佈

Occupancy佔用網絡的加入讓BEV從2D變成了真正意義上的3D(如圖16所示),並且在加入時間流信息(基於光流法)之後,完成了由3D向4D的過度。

圖16.Occupancy佔用網絡使EVE變成真正的3D
圖16.Occupancy佔用網絡使EVE變成真正的3D

Occupancy Network佔用網絡引入了高度信息,實現了真正的3D感知。在之前的版本中,車輛可以識別訓練數據集中出現的物體,但對於未見過的物體則無法識別,而且即使認識該物體,在BEV中也只能判斷其佔據一定程度的方塊面積,而無法獲取實際形狀。Occupancy網絡通過將車輛周圍的3D空間劃分成許多小方塊(體素),實現了對每個體素是否被佔據的判斷(其核心任務不在於識別是什麼,而是在於判斷每一個體素中是否有東西被佔據)。

這就像你在迷霧中開車,雖然看不清楚前面是什麼,但你大概知道前面有障礙物,你需要繞過去。

Occupancy Network也是通過Transformer來實現的,最終輸出Occupancy Volume(物體所佔據的體積)和Occupancy flow(時間流)。也就是附近的物體佔據了多大的體積,而時間流則是通過光流法來判斷的。

圖17.光流法
圖17.光流法

光流法假設構成物體的像素亮度恒定且時間連續,通過對比連續兩幀圖像中的像素位置變化,最終帶來了4D投影信息。

圖18.投影信息
圖18.投影信息

(4)特斯拉引領感知技術收斂,國內頭部廠商陸續跟隨

大家讀到這裏可能沒有很直接的觸感,但我給大家列舉幾個直觀數據

  • 2021年FSD V9,第一屆AI Day公佈BEV網絡,國內2023年BEV架構開始上車。

  • 2022年第二屆AI Day特斯拉公佈Occupancy Network佔用網絡,2023-2024年國內Occupancy佔用網絡開始上車。

  • 2023年特斯拉宣佈FSD V12採用端到端技術,2024年國內廠商紛紛跟進(採用模塊化的端到端)。

圖19.國內廠商整體落後特斯拉1-2年
圖19.國內廠商整體落後特斯拉1-2年

資料來源:騰訊科技 涵清 整理繪製

BEV+Transformer解決了自動駕駛車輛對高精地圖依賴的問題:高精地圖和我們日常用的高德、百度地圖不一樣(如圖20所示),它精確到厘米級別並且包括更多數據維度(道路、車道、高架物體、防護欄、樹、道路邊緣類型、路邊地標等數據信息)。它的成本是很高的,需要時時刻刻保證地圖厘米級別的精確性,然而道路的信息總是會有變化的(比如臨時施工),所以就需要長時間進行採集測繪工作。而想依靠高精地圖實現所有城市場景的自動駕駛,是不現實的。大家現在應該可以在一定程度上理解BEV帶來的貢獻了(注:特斯拉Lane神經網絡同樣是擺脫高精地圖的關鍵算法,由於篇幅限制,這裏不做過多闡述)

圖20.高精地圖和普通地圖對比
圖20.高精地圖和普通地圖對比

Occupancy Network佔用網絡解決障礙物識別率低的問題:將識別的物體變成4D,無論車輛周圍有什麼東西,無論它認識與否,它都可以將其識別出來,避免碰撞問題。而在此之前,車輛只能識別訓練數據集中出現過的物體。Occupancy Network佔用網絡一定程度上帶領自動駕駛上實現了依靠神經網絡的感知側端到端,意義重大。

2.2特斯拉FSD V12的今生

在文章開頭我們提到:特斯拉智駕團隊負責人AShok Elluswamy在X(推特)上發文稱基於「端到端」(「end-to-end」)的FSD V12在數月的訓練時間內,已經完全超過了數年積累的V11。

AShok Elluswamy在X(原推特)上發文
AShok Elluswamy在X(原推特)上發文

再結合業內一衆大佬對FSD V12的高度肯定,可以看出FSD V12和V11可以說是兩個東西,因此我以V12爲分界線將其分爲前世今生。

根據表1可以看出自從,FSD V12上車之後,其迭代速度遠遠快於之前,30多萬行的C++代碼縮減到幾千行,可以在社交媒體上看到消費者、從業者都頻繁表示特斯拉FSD V12的表現更像人了。

表1.FSD迭代版本 資料來源:特斯拉AI Day、馬斯克推特、中泰證券,騰訊科技 涵清 整理繪製
表1.FSD迭代版本 資料來源:特斯拉AI Day、馬斯克推特、中泰證券,騰訊科技 涵清 整理繪製

特斯拉究竟是如何實現的蛻變我們不得而知,但是從AShok Elluswamy在2023 CVPR的演講上或許可以推斷其端到端的模型很有可能是在原有的Occupancy的基礎上構建的。「Occupancy模型實際上具有非常豐富的特徵,能夠捕捉到我們周圍發生的許多事情。整個網絡很大一部分就是在構建模型特徵。」

從整體思路來看,國內模塊化的端到端可能和特斯拉構建的大模型端到端存在一定差別。

由於前文已經大致講過什麼是端到端,因此我們這裏不再過多贅述,接下來我想要跟大家聊下爲什麼說在這場自動駕駛的競賽中,特斯拉目前是處於領先的位置,我們可以通過客觀數據來進行對比。

開啓端到端時代後,車企端到端的智駕水平主要由三大因素決定:海量的高質量行車數據、大規模的算力儲備、端到端模型本身,與ChatGPT類似,端到端自動駕駛也遵循着海量數據×大算力的暴力美學,在這種暴力輸入的加持下,可能突然湧現出令人驚豔的表現。

圖21.端到端時代智駕水平
圖21.端到端時代智駕水平

由於不知道特斯拉是如何實現其端到端的,所以我們這裏只討論數據和算力

2.2.1特斯拉構建的算力壁壘

FSD的發展史可以說是其算力積累的發展史,2024年初,馬斯克在X(原推特)上表示算力制約了FSD功能的迭代,而3月開始,馬斯克表示算力不再是問題了。

圖22.馬斯克在X上的推文
圖22.馬斯克在X上的推文

Dojo芯片投入量產後,Tesla由原先A100集群不到5EFLOPS的算力規模迅速提升到全球算力前5水平,並有望於今年10月達到100EFLOPS的算力規模,約30萬張A100的水平。

圖23.特斯拉算力變化曲線圖 資料來源:特斯拉
圖23.特斯拉算力變化曲線圖 資料來源:特斯拉

再對比國內廠商的算力儲備(如圖24所示),可以看到在各種現實因素限制下,中美智能駕駛算力儲備方面的差距還是較爲明顯的,國內廠商任重道遠。

圖24.特斯拉和國內智駕企業算力對比圖
圖24.特斯拉和國內智駕企業算力對比圖

資料來源:汽車之心、公開資料、甲子光年智庫,由騰訊科技 涵清 整理繪製

當然算力的背後還意味着巨大的資金投入,馬斯克在X(原推特)上表示今年將在自動駕駛領域投資超100億美元,也許真像理想汽車智能駕駛副總裁郎咸朋說的那樣,「未來一年10億美元只是入場券」

圖25.馬斯克表示將於2024投資超100億美元在自動駕駛領域
圖25.馬斯克表示將於2024投資超100億美元在自動駕駛領域

2.2.2特斯拉的高質量數據

端到端的智能駕駛就像一個潛力極高的小天才,你需要給它投餵大量高質量的老司機駕駛視頻,才能讓它快速地成長成開車領域的博士生,而這又是一個大力出奇跡的過程。

馬斯克在業績會中提到訓練模型所需的數據:「100萬個視頻 Case 訓練,勉強夠用;200萬個,稍好一些;300萬個,就會感到Wow;到了1000 萬個,就變得難以置信了。」而訓練仍需要優質的人類駕駛行爲數據,得益於特斯拉自身的影子模式,數百萬輛量產的車輛可以幫助特斯拉收集數據,並且特斯拉在2022AI Day時便公佈其建立了全面的數據訓練流程:涵蓋了數據採集、模擬仿真、自動標註、模型訓練和部署等環節。截至2024年4月6日,FSD用戶的累計行駛里程已超10億英里。而國內任何一家廠商用戶的累積行駛里程都較其相差甚遠。

而數據質量和規模要比參數更能決定模型的表現,Andrej Karpathy曾經表示過特斯拉自動駕駛部門將3/4的精力用在採集、清洗、分類、標註高質量數據上,只有1/4用於算法探索和模型創建。由此可見數據的重要性。

特斯拉正一步步探索自動駕駛的「無人區」,將規模和能力推向極致。

圖26.FSD用戶累計行駛里程超過10億英里
圖26.FSD用戶累計行駛里程超過10億英里

03 結語

當然,最終效果還是要看車輛的實際上路表現。特斯拉 V12 運行的區域主要集中在美國,而那裏整體的道路交通狀況較好,不像國內,行人、電動車隨時可能突然竄到馬路上。不過從技術角度而言,一個能在美國熟練開車的人,沒道理到中國就不會開了。何況學習能力是其核心特點之一,或許初步落地時表現不如在美國本土那般出色,但參考FSD V12.5 之前的迭代時間,可能半年到一年後它就能適應中國的道路情況了。

這對國內廠商的影響頗爲重大,就看衆多智駕企業將如何應對特斯拉這個已在美國得到驗證的 FSD V12 了。

參考資料:

1.  Mobileye官方資料

2.  2021 Tesla AI Day

3.  2022 Tesla AI Day

4.  特斯拉官方

5.  特斯拉業績電話會議

6.  X(推特)推文

7.  辰韜資本《端到端自動駕駛行業研究報告》

8.  大劉科普「最強」自動駕駛如何煉成?特斯拉FSD進化史:超深度解讀

9.  甲子光年《2024自動駕駛行業研究報告:”端到端“漸行漸近》

10.  太平洋證券《汽車行業深度報告:從蘿蔔快跑Robotaxi看特斯拉的AI時刻》

11.  中泰證券《電子行業|AI全視角-科技大廠業績系列:特斯拉24Q2業績解讀》

12.  華鑫證券《智能駕駛行業深度報告:從特斯拉視角,看智能駕駛研究框架》

13.  華金證券《華金證券-智能駕駛系列報告-二-:特斯拉智能駕駛方案簡剖》

14.  開源證券研究所《智能汽車專題報告:算法進階,自動駕駛迎來端到端時代》

15.  國投證券《汽車行業2024年智駕中期策略:特斯拉打開智駕技術新高度,降本是國內產業鏈首要目標》

16.  Guan, Yanchen, et al. "World models for autonomous driving: An initial survey." IEEE Transactions on Intelligent Vehicles (2024).

17.  Li, Xin, et al. "Towards knowledge-driven autonomous driving."arXiv preprint arXiv:2312.04316 (2023).

18.  Guan, Yanchen, et al. "World models for autonomous driving: An initial survey." IEEE Transactions on Intelligent Vehicles (2024).

19.  Hu, Yihan, et al. "Planning-oriented autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

20.  Chib, Pranav Singh, and Pravendra Singh. "Recent advancements in end-to-end autonomous driving using deep learning: A survey." IEEE Transactions on Intelligent Vehicles (2023).

編輯/Somer

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論