share_log

特斯拉AI Day全记录+解读:算力怪兽DOJO,纯视觉FSD强在哪

特斯拉AI Day全記錄+解讀:算力怪獸DOJO,純視覺FSD強在哪

42號車庫 ·  2021/08/21 07:56

如果你今天在社交網絡上看到特斯拉 AI DAY 的直播鏈接並且碰巧在 2 小時 6 分左右進入了直播,那你很可能和我一樣被接下來幾分鐘看到的內容驚到。

這種驚訝先會先來自於下圖這個極具科幻色彩的擬人機器人,它叫 Tesla Robot,是這次 AI DAY 的彩蛋,一部和特斯拉汽車共用視覺攝像頭和神經網絡計算芯片的機器人。

圖片

圖片

可就在我的期待被瞬間拉高,幻想能看到這款機器人走上發佈會舞臺並説出那句「So it is with considerable pride that I introduce a man who's been like a father to me - Elon Musk」的時候,眼前又發生了這樣的一幕:

圖片

看到這段 COS 尬舞,那些和我一樣期待被拉高的觀眾應該在心裏觸發了疑惑三連:

「What?」

「就這?」

「RNM,退錢!」

圖片

不過玩笑歸玩笑,如果這次 AI DAY 的直播你是從頭看到尾,那麼你應該知道這段舞蹈是今天這 3 個小時的發佈會裏為數不多的輕鬆時刻。

整場發佈會的信息密度之大、涉及的技術領域之廣、口音之重,我可能需要數週時間才能深入解讀,在本篇我們先簡要歸納一下這次發佈會信息。

01 自動駕駛實現的基礎

能力之一:視覺

發佈會開頭的內容還算熟悉,特斯拉 AI 總監 Andrej Karpathy 上臺介紹了一下特斯拉在做的事情:打造一套像人腦那樣基於視覺的計算機神經網絡系統。

眼睛的替代品最好找,在特斯拉現售的車型上,這部分由 8 顆 ADAS 攝像頭組成,這些攝像頭可以在車身周圍獲取 360° 的無死角視野。

圖片

在這之後,整套系統還需要有視網膜、多目視覺的視交叉、視葉神經束等一系列複雜的神經網絡,這些環節則主要需要通過軟件和算法來實現。

圖片

在識別視覺特徵的環節,大腦是通過視網膜讀取信息,電腦則是通過計算比對像素的排列來識別。特斯拉在這個環節的軟件特徵提取層中做了不同區域的分工和相互配合,於是在特徵的識別上可以做到結合環境情況推測那些不夠明顯的特徵,比如下圖中已經基本是馬賽克分辨率的車輛。

圖片

針對不同類型的特徵,例如交通燈、交通線、交通參與者等等特斯拉建立很多個這樣的特徵識別指令,這些指令可以對同一素材進行多任務處理式的特徵識別。特斯拉將這套識別網絡稱作「HydraNet」。

然後是老版本軟件裏的環境建模追蹤器「occupancy tracker」,可以實現帶時間軸的跨畫面圖像拼接,構成一個車身周圍的環境建模,但問題有兩個,一個是環境建模工作量巨大,通過 C++ 軟件代碼去實現這個步驟非常複雜,另一個問題是建模精度不夠。

圖片

所以特斯拉希望改變策略,原先的做法是先對每個攝像頭分畫面預測然後再進行拼接和信息融合,現在的思路是直接先把 8 個攝像頭的素材拼接好,擬合成一個實時的立體空間然後再來進行各種預測。

這個過程看起來簡單做起來難,在解決其中的很多關鍵難題以後,最後做出來的多攝像頭視覺在感知精度上有顯著提升。

圖片

儘管如此,通過多攝像頭視覺也沒法解決的問題還有特徵被遮擋時的預測以及對於已經過道路標識的持續記憶

圖片

這時候特斯拉在預測模型中加入了對特徵的隨時間移動預測,以及對道路標識的距離記憶。有這樣的措施以後在視野被短暫遮擋的情況下,系統仍可以根據遮擋前特徵的軌跡「推測」遮擋視野後的物體移動軌跡,以及記下駛過路段各種路標的能力。

圖片

在這之後,系統裏還加入了「Spatial RNN」空間遞歸神經網絡,在車輛視野範圍內進行有選擇性地預測和記錄環境中的某類特徵(可以同時進行好幾種)。Andrej Karpathy 舉的一個例子是系統在有車輛遮擋的時候不會記錄道路環境,等遮擋的車走開之後才會記錄,個人理解就是「少做無用功」。然後同樣的路多走幾趟這些被記錄的環境特徵還可以構成特徵地圖。

以上措施一起工作下總的效果非常可觀,比如在景深速度探測上,圖中的綠線是毫米波雷達的數據,單攝像頭視覺預測出的黃線數據比較一般,多攝像頭視覺預測的藍線數據與雷達基本一致,提升明顯。所以用 Andrej 的話説多攝像頭視覺方案已經可以替代毫米波雷達。

圖片

以上就是特斯拉對環境感知預測的重要內容,Andrej 在發佈會上表示這些內容仍有改進空間,比如延遲方面團隊還在探索預融合感知的策略,以及處理數據的成本等等。

圖片

能力之二:規控

車輛規控的核心目標是實現安全、舒適、效率三者的最佳平衡

對應的兩個大挑戰,一個是規控算法的最優解具有很深的本地化特性,A 地區的最優解對於 B 地區可能就不適用了,對於不同地區無法「一視同仁」。

第二個挑戰在於實際行駛中影響規控策略的變量非常多,車輛需要控制的參數也非常多,而車輛需要計劃接下來 10 - 15 秒應該做什麼,這需要非常大量的實時計算。

圖片

以圖中場景為例,車輛需要在路口之後向左並兩次線到藍線車道並且完成左轉,於是但現在面臨這些考慮:

  1. 左側車道後方有兩臺車快速接近;

  2. 下個路口前,要在短距離內成功完成兩次併線;

圖片

系統會對此模擬出多種策略,然後找出其中可以實現上述要求的策略。而且在實際的行駛中,除了規劃自身行駛路徑,還需要預測其他交通參與者的路徑。在可行策略中在按照「安全、效率、舒適達到最佳平衡」的原則進行路徑優化。當規劃做好以後,剩下的事情就是控制車輛按規劃的方案行駛。

圖片

然而在更開放和無序的道路場景下,規控的複雜性會提高很多,比如下圖的這個停車場場景,如果設定的路徑搜尋邏輯為歐幾裏德距離算法,系統需要嘗試 398,320次才能成功算出進入車位的路徑。

圖片

如果做一些優化,在搜尋邏輯中加入一條「遵循停車場的地標指引方向」,那麼系統嘗試 22,224次以後就可以找到進入車位的路徑,相比第一種策略試錯次數減少了 94.4%。

圖片

接下來再深入一些,算法改為蒙特卡洛樹搜索,邏輯改為神經元網絡策略和價值方程,最後系統僅需嘗試 288次就可以找到進入車位的路徑,相比已經優化過的第二種方案,試錯再減少 98.7%。

圖片

這個案例中也可以看出,不同場景下規控系統中採用的邏輯和算法對於最終的計算量的有着非常大的影響,如果方法對了,事半功倍。

感知和規控兩大關鍵能力實現的自動駕駛框架圖最後如下,本篇就不再做過多展開。

圖片

02 AI 駕校

有了框架,還需要做的事情是把框架中神經網絡訓練到更高的能力,這好比人類有眼睛作為感知、大腦加手腳作為規控系統以後,還需要積累駕駛經驗學習駕駛技巧。讓機器學習開車,也需要一個 AI 駕校,而特斯拉的 AI 駕校規格自然也不低。

數據標記是個大工作

數據在丟給系統學習之前需要進行標記,人工標記的部分特斯拉沒有外包,公司內有一支 1,000 人級的數據標記團隊來做這個事情。

圖片

隨着時間點的推移,特斯拉標記的數據也是與日俱增,標記類型也從開始的在 2D 圖像上標記演化至直接在帶時間座標的 4D 空間上標記。

圖片

不過數據標記的重點還是自動標記,比如輸入行駛素材後系統可以自動標記車道線、路肩、路面、人行道等等。

圖片

在這一基礎上,經過同一區域的特斯拉車型夠多的時候就可以將這片特定區域的道路都標記起來。這些標記出來的數據可以用於道路環境的模型重建。

圖片

這些數據並非用作高精地圖,也不會一直保存在車輛系統上,只用作訓練,為了確保重建道路模型的質量,還會需要人工去剔除優化一些噪點。

圖片

標記的特徵也不只限於常見的車道線和路肩之類,圍牆、路障等等都可以標記。

另一個對於前面規控算法中遮擋預測非常有用的是遮擋透視標記。下圖中綠圈實際被遮擋的物體會以透視的方式標記出來,系統可以知道在被遮擋的時候物體是如何移動的,進而可以有相應的學習策略。

圖片

利用這些標記措施最後可以構建出非常擬真的環境模型,這樣的建模中可以進行具體和有針對性的算法訓練。

圖片

一個場景搞定的情況下,可以從車輛標記好的數據中搜索類似場景。比如前車行駛中被煙霧或者其他幹擾因素遮擋的案件,一週時間可以在隊列裏找出 1 萬個實際場景,然後可以利用這些「同類考題」對神經網絡進行快速的泛化訓練。

圖片

真題卷之外,還要做模擬卷

2019 年馬斯克在自動駕駛日上曾説過,除了通過收集真實的道路環境訓練算法,特斯拉其實也有做大量模擬測試,而且特斯拉打造的模擬器可能是全球最棒的之一。

這次 AI DAY 上官方對這套系統也進行了介紹,首先特斯拉闡述了模擬器很有幫助的三種情況:

  1. 少見的罕見場景,比如圖中的主人帶寵物在高速上跑步;

  2. 特徵難以實現標記的場景,比如眾人過沒有交通燈的馬路;

  3. 某段道路盡頭。

圖片

總的來説我的理解就是有不正常行為的場景、特徵標記不過來的場景以及很少去的場景,這些時候利用可以自定義的模擬器能對數據量起到一定補充。

而且也因為模擬器中自定義程度高,在針對傳感器的測試中可以人為製造挑戰,比如設定噪點、曝光、反射率、熱氣流折射、動態模糊、光學畸變之類,驗證系統的抗幹擾性。

為了模擬出更多的場景,目前這套模擬器中已經做了上千種車輛、行人以及其他道具的模型,模擬器中道路總長超過 2,000 英里。

於是一套場景重建的流程就出來了:首先是遇到真實的場景,通過自動標記進行第一層重建,然後在第一層重建的基礎上在模擬器中再做出場景還原。

圖片

在這樣的一所 AI 駕校裏,特斯拉通過路上的車輛源源不斷地收集各種「真題」素材,這些素材經過標記、模擬重建之後有了「模擬題」,系統在考砸零損失的「模擬題」裏摸爬滾打之後經驗提升,做「真題」的能力也隨之提高。按照開發人員制定的「考綱」還可以出一些特殊場景的「提高卷」。

現在的訓練設備

目前用在市售特斯拉車型上的 FSD Computer,也就是 HW 3.0 大家應該也比較熟悉了,這塊誕生於 2019 年的雙 72 TOPS 算力 SoC 芯片是車輛的核心計算單元,採用了專用於神經網絡加速計算的架構。其他內容本篇就不作過多介紹了。

圖片

在 AI 驗證測試方面,特斯拉準備了超過 3,000 個 FSD Computer、專門的設備管理軟件以及定製化的測試計劃,每週會運行超過 100 萬次的算法驗證測試。

圖片

神經網絡的訓練上,特斯拉用了 3 大計算中心,其中自動標記的計算中心有 1,752 個 GPU,其餘兩個用來訓練的計算中心一個有 4,032 個 GPU,另一個有 5,760 個 GPU。

圖片

這些計算中心的性能客觀來説已經非常強大,只是對於特斯拉來説依然不夠,於是特斯拉自己設計了一款專門用於機器學習訓練的硬件。

03 專用超算 & 機器人

A super fast training computer

關於 Dojo 的傳言已經有一段時間,關於它的介紹我們依然從研發之初的目標開始,三個方向分別是最強的 AI 訓練性能,能帶動更大的更多的神經網絡以及高能效和低成本。

圖片

關於 D1 芯片的詳細設計思路中非常重要的一點在於「專芯專用」,排布方式、帶寬容量、節點架構等等一切都圍繞實現最佳的神經網絡訓練而施行,最後 7nm 的 D1 芯片單顆浮點算力達到 BF16/CFP8 下 362 TFLOPs ,FP32 下為 22.6 TFLOPs

圖片

最後計算部分由 25 個 D1 芯片組成的「算磚」一塊的算力達到 9 PFLOPs,I/O 帶寬到達 36 T/S,散熱功率可以達到 15 kW。

圖片

120 塊這樣的「算磚」組成的超算系統,算力可以達到 1.1 EFLOP,在同等的成本下,性能提升了 4 倍,能效提升了 30%,佔地減少了 80%

圖片

這是個什麼概念我已經無法形容了,我看不懂,但我大受震撼。

Tesla Bot

最後是開頭那個機器人,尬舞的那段是真人 COS,實際的 Tesla Bot 參數如圖。

圖片

在我意料之外又是情理之中的是,這個機器人採用了 Autopilot 的攝像頭作為視覺感知,採用了 FSD Computer 作為計算核心。

圖片

於是有了一個非常驚人的事:在多相機神經網絡、基於神經網絡的規化、自動標記、算法訓練等一系列的內容上,Tesla Bot 有很多內容可以用現成的,雖然一臺都還沒造,但它可能已具備全世界智能機器人裏最強的規模化優勢

在我看來,這相當於給競爭對手們判了一個無聲的死緩。

04 寫在最後

看到這裏的時候如果你已經忘了文章的標題,那説明你已經認同標題想傳達的內容了。

特斯拉的視覺感知方案能做到的事情,其實遠比普通大眾以為的要多得多,規模化效應的思路在基於神經網絡的視覺方案中已經開始有所體現了。

可不得不説特斯拉確實在很早的時候就把牛吹出去了,但視覺感知最不擅長的景深和速度探測也是直到前幾個月才過了那個超越毫米波雷達的拐點,什麼時候到國內現在也還是未知。

作為國內消費者我可能很長一段時間還體驗不到這些技術帶來的便利,但不管是技術路線的實現還是長足戰略規劃的佈局上,特斯拉依然是處於領先的狀態,在 Dojo 的加持下這種差距可能還會被拉大。

然後關於特斯拉做 Dojo 超算和機器人,則又是一個通過規模效益減少訓練邊際成本的做法,而且兩者的規模效應還是相輔相成的。

用同樣的方式擊敗不一樣的對手,也或許是 AI DAY 讓我感觸最深的地方。


譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論