理想汽車董事長兼CEO李想在幾年前首次提出,公司未來是一家領先的人工智能企業的時候,並沒有太多人get到他在表達什麼。
隨後理想公司的動作是:將公司汽車的銷量擠到中國市場的領先地位,賣出年銷量50萬輛的汽車,在車上全部部署上端到端技術、Mind GPT,隨後Mind GPT經過1.0/2.0,然後到3o多模態智能體的迭代後,理想決定推出理想同學App,讓這個語音助手觸及到更多的人。
在近日年底壓軸舉辦的「2024理想AI Talk」活動中,伴隨着那個男人——李想回歸公衆視野,理想同學App宣佈在手機應用市場上線,理想汽車的人工智能戰略路徑也逐漸清晰。
在描述理想同學和理想智能駕駛這兩個通常被認爲獨立領域的產品和場景時,李想用了一種不同與往的表達——「我們的大語言模型Mind GPT是認知智能,連接數字世界;而自動駕駛被稱爲空間智能,關乎物理世界。我們同時在這兩個領域探索,並堅信認知智能與空間智能的結合——我們稱之爲VLA(Vision Language Action Model,視覺語言行動模型)——是一個更值得相信和追求的機遇。」
理想從汽車企業變成人工智能企業的表述,也正式被連接起來,「從企業角度來看,理想汽車是一家人工智能企業,我們要做的不是汽車的智能化,而是人工智能的汽車化,並將推動人工智能普惠到每一個家庭。從行業視角來看,汽車將從工業時代的交通工具,進化成爲人工智能時代的空間機器人。在對整個世界的理解上,我們通過人工智能將物理世界與數字世界進行融合,讓有限的空間實現無限的延伸。」
ChatGPT的對手,最終會是一家汽車公司?理想同學App的表現會是什麼樣?我們也率先對理想同學App進行了體驗。
一切極簡,上手難度低
從理想汽車的場景來看,理想同學有很多時間是被家庭中的小朋友使用的。
反過來看,很多理想家庭用戶中的小孩第一次接觸到人工智能,也是理想同學。在理想Mind GPT上車之後,家庭中的小朋友會用理想同學畫畫,或者和理想同學聊作業,甚至是陪他們娛樂,從這個角度來看,車的場景確實延伸到了下一代用戶。
所以,一個上手難度低,且能給大部分人用的理想同學App就似乎有了一個「路徑」。
從理想公佈的理想同學App的功能來看:理想同學App是一款人工智能應用,目前具備兩大功能:「知識問答」提供多領域的問答能力,包括汽車、出行、財經、科技等領域,並能處理多種文本任務,如撰寫文章、翻譯和創作文案等;「看世界」依靠視覺感知能力,幫助用戶識別菜單、畫作、動植物、汽車等上千種通用物品。
在蘋果應用商店,理想同學App的分類是「效率」,力圖成爲一個隨時隨地陪伴你的智能助手。
理想同學App使用了理想同學在汽車上的形象,不管是圖標還是內部的軟體ui設計都採用了極簡的風格。
打開App,直接註冊/登陸賬戶就來到了主頁面,整個軟體的功能可以說非常簡單:註冊不需要必須是理想車主,可以是任何人,第一次登陸不需要設定複雜的個人信息,幾乎是賬號登錄直接用,輸入直接視覺、文字和語音,然後除去設置、開啓新對話和查看過去的對話就沒有其他功能了。
這確實很符合「效率」的印象,簡潔的菜單,極速登錄,甚至沒有首次教程,不主動做推薦內容,可以說上手就開用——如果它真的針對的是家庭中的小朋友的話,那意味着它也覺得這個軟體不需要學習成本。
像很多Kimi、ChatGPT軟體在提問過程中其實會顯示一定的loading時間,但理想同學App在這個過程做了一個動畫反饋——理想同學App在AI生成內容的過程中,它會通過一系列生動的動效,展現AI的「思考步驟」和內容生成的「思維導圖」。
當然,第一次看到這樣的loading反饋確實很新鮮,覺得蠻有科技感,但每次看這樣的過程有些人也會覺得有點無聊——你也可以在設置裏關閉這個「思考過程」。
我們覺得理想同學App整體設計上確實沒有什麼上手門檻,如果按照蘋果那種「不需要教程小孩子都可以直接上手使用」理論的話,這無疑是比較成功的。
另外,從理想同學初次打開推薦的話題來看——理想同學App的話題似乎比較傾向於財經、科技知識類。
常規的問題能在2-3秒內快速地返回內容,這比我在ChatGPT(可能是後臺連接速度問題)上的反應似乎更快一些。
此外,視覺識別和理解印象也比較深刻:
比如讓它識別了一段手寫體的日文,我們用蘋果自帶翻譯識別地非常錯亂,但理想同學App還算是總結出了基本意思(也可以看到手寫體部分識別錯誤):
讓它識別天氣,也可以結合網絡信息檢索和真實視覺:
從手機App到硅基家人
據理想,理想同學基於理想自研的行業首個車載認知大模型Mind GPT打造,23年12月至今,大模型已經迭代30多次。即將上線的Mind GPT-3o 是一個多模態端到端大模型,響應速度進入百毫秒級別,能夠理解不同的模態,在一個模型內完成從感知到認知再到表達的完整的能力。理想同學的大腦升級爲最新一代Mind GPT-3o之後,記憶、規劃、工具、表達能力全面提升,也變得更加了解你、認識你、一直陪伴你。
從認知大模型Mind GPT到理想同學App更像是一個自然而然的過程。而爲什麼要做一個手機App,背後的問題是理想怎麼看,以及爲什麼要自研大模型?
理想汽車智能空間AI負責人陳偉把理想做大模型描述爲一個「逐漸達成共識的」的過程——線上的關於自然語言處理的技術,切換到了預訓練的模式下,任務型對話能夠在車裏面,做車控、媒體、導航這樣非常多垂域的覆蓋,上面用預訓練的模式能夠快速高效地、高質量地完成這樣的能力。
2022年年底,ChatGPT發佈了。大模型帶來的認知智能和語言智能上突飛猛進的變化,這件事情對理想汽車和李想本人來說,都有着非常大的震撼,當然理想內部在討論:爲什麼我們沒有快速地考慮把這個模型架做得那麼高那麼大。
李想則認爲,應該回歸用戶體驗,核心的問題在認知智能上面。要把理想同學的認知快速拉上來,指引了後續做基座模型。
李想認爲今天仍然由OpenAl在定義AGI(通用人工智能),比如第一個階段是聊天機器人,OpenAl完全按照這個定義做了最好的產品體驗。第二個階段是推理者,到第三個階段Agent(智能體)的時候,才是真正的「iPhone 4時刻」,普通老百姓都能用了,它能獨立地、持續地、連續地完成任務,而不需要靠密集的提示詞。
「除了目前OpenAl宣稱進入L2(推理者)以外,絕大部分的團隊現在還停留在L1(聊天機器人)這個階段。在這樣的一個狀態下,技術處於早期,而我們在做一個無限遊戲。探索邊界還不清晰的情況下,我們最重要的事情就是把握住目前的第一性原理Scaling Law(規模效應)。」陳偉稱。
於是,理想同學就化身在空間智能裏和手機App上,被定爲了「硅基家人」。
不過,從目前反饋的內容質量上來看,確實很難看出各個應用之間的差異化。但理想嘗試想做的:一是將行業類似的功能從可用提升到好用;二是將前沿產品轉化爲可用的場景和功能——從過去的產品定義上來看,這確實是這家公司的強項。
陳偉稱,在追趕ChatGPT的過程中,Mind GPT數據保持快速迭代——現在的預訓練數據規模量已經到10萬億Token的規模了,「在預訓練後訓練階段,也要構建一套好的分段學習的邏輯,儘快地把強化學習後訓練的事情做好。」
「Scaling Law(規模效應)本身在解決的問題是模型的效果、數據和模型規模之間的關係。我們越來越覺得數據不只是規模的,需要有高質量的數據才能把規模做上去,才真正有價值。」
這也符合李想本人的人工智能演進論,從第一階段「增強我的能力」到第二階段「成爲我的助手」,最後成爲「硅基家人」。
「我不需要再給它任何的指示了,我也不需要給它分配任務了,它就是我們的家庭成員,甚至是家庭重要的組織者,它不但了解我,它還了解我的孩子,了解我身邊的朋友,甚至比我還了解。」
「它會主動去幹很多事情,可以自主的衡量,幫我把這個家管理好。當AGI發展到第三階段,是我的硅基家人後,我覺得很重要的點是說,我的記憶也會被它得以延續,可能我的肉體不存在了,但是我的記憶會變成它的一部分。」