share_log

周末读物 | 提前曝光Llama3.1,Meta为什么想做「大模型界Linux」?

週末讀物 | 提前曝光Llama3.1,Meta爲什麼想做「大模型界Linux」?

極客公園 ·  07/27 14:19

扎克伯格期待Llama3.1成爲「老師」,用來微調小模型。

當地時間 7 月 23 日早上,$Meta Platforms (META.US)$開源了外界期待已久的大參數模型——Llama 3 405B。

Meta 發文稱,該模型在多項基準測試中優於 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。並且,扎克伯格預計,由 Llama3 支持的 Meta AI(Meta 的人工智能助手)使用量將在未來幾個月內超過 ChatGPT。

比肩世界上最強大模型的 Llama3.1 開源,社交平台 X 上,很多人將這一事件視爲歷史、拐點、史詩級時刻,這意味開源、閉源之間的差距進一步縮小乃至反超,還意味着開發者從此有了一個免費的最強基座模型在手。

在扎克伯格看來,這個拐點時刻則意味着「Llama 有機會成爲開源 AI 的行業標準」,就像 Linux 之於移動互聯網一樣

但與之相反,不少從業者指出一個問題,4000 億參數量級的密集模型,即便開源,很多人可能也用不起來,尤其是考慮到運行如此規模模型的算力集群的複雜程度,再加上比較高的運行、推理成本,真正能用得上、用得轉的開發者並不多。

去年 Llama2 開源時,外界原本期待 Meta 逐漸開源最強模型後,難望項背的 GPT-4 能力的可以瞬間免費地加持所有人,直接拿來探索 AI 應用。但現在似乎不同,從最強模型中蒸餾小模型,成爲了 Llama 3 405B 新的產業意義嗎?

Llama3.1:比肩 GPT-4o,非 MOE 架構,但多模態能力仍是期貨

早在今年四月,Meta 先開源了 Llama3 系列的兩個小參數版本的模型,8B 和 70B。比起幾個月前的 Llama 3,現在推出的 Llama 3.1 升級了先前的 8B 和 70B 模型,還發布了迄今爲止最大的開源模型 Llama 3 405B——後者擁有 4050 億個模型參數,採用了密集 Transformer 架構,具有 128K 的上下文窗口。

相比 Meta 去年 7 月發佈的 Llama2,迄今爲止最大、最好的開源模型 Llama3.1 在衆多方面做了升級。

  • 數據:使用了約 15T 的多語言 token,相較於 Llama 2 的 1.8T 有顯著提升。

  • 規模:Llama 3 的訓練規模是 Llama 2 的 50 倍,模型參數和訓練計算量均大幅增加。

  • 複雜性管理:選擇標準的密集 Transformer 架構,而非混合專家模型,以確保訓練的穩定性。

截圖來源:Meet Llama 3.1
截圖來源:Meet Llama 3.1

與行業水平相比,Llama 3 在多項任務上有着與領先模型(如 GPT-4)相當的性能,其在多個基準測試中表現優異,包括:

  • 通用:在 MMLU、GSM8K 等基準上表現突出。

  • 編程能力:在 HumanEval 和 MBPP 等編程基準上取得高分。

  • 多語言能力:支持多種語言,尤其在德語、法語等語言上表現良好。

值得注意的是,去年 3 月 OpenAI 推出的 GPT-4 是擁有 1.8 萬億參數的 MOE 架構(混合專家模型),自那以來,海內外大模型廠商大都採用或者遷移至這一架構,但今天發佈的 Llama3.1 並沒有採用這一架構。

在目前火熱的技術路線——多模態融合上,Llama3 目前也並不支持。官方論文介紹稱,Llama 3.1 支持多語言、編程、推理和工具使用,但目前還無法處理圖像、視頻或語音。論文中提到,Meta 正在致力於爲該模型添加圖像識別、視頻識別和語音理解功能,但具有這些功能的版本「仍在積極開發中,尚未準備好發佈」。

Meta 的星辰大海是 AI 生態系統

今年 4 月的一檔播客訪談節目中,扎克伯格透露今年年末才會推出 Llama 3 405B,並且這個模型開源與否要視情況而定。顯然,這個時間表被提前了,在其尚不支持多模態、模型能力也尚不完美時,現在就開源可獲得。這是爲什麼?

在 Meta 官網,扎克伯格寫了一封「開源 AI 是未來之路」(Open Source AI Is the Path Forward)的信,或許可以回答這個問題。

在他看來,人工智能會以類似 Linux 的方式發展,而 Meta 有機會做大模型時代的 Linux,成爲開源 AI 的行業標準

在高性能計算早期,主要科技公司都投入巨資開發自己的 Unix 閉源版本,當時也很難想象任何其他方法來開發軟件。但最終,開源 Linux 獲得了普及——最初是因爲它允許開發人員隨心所欲地修改其代碼,而且價格更便宜,隨着時間的推移,它變得更先進、更安全,並且擁有比任何封閉式 Unix 更廣泛的生態系統,支持更多功能。如今,Linux 已成爲雲計算和運行大多數移動設備的操作系統的行業標準基礎。

扎克伯格認爲,儘管多家公司正在開發領先的閉源模型,但開源正在迅速縮小差距。以 Meta 爲例,去年 Llama 2 只能與第一梯隊玩家的舊版模型相媲美,今年,Llama 3 與最先進的模型競爭,並在某些方面處於領先地位。Meta 預計,未來的幾代 Llama 將成爲業內最先進的模型。

從這一代模型開始,Meta 還將通過建立廣泛、開放的生態系統,致力於使開源 AI 成爲行業標準,使 Llama 成爲行業標準。比如像這次伴隨 Llama3.1 的發佈,與生態夥伴的「嵌合」也更加緊密:Amazon、Databricks 和英偉達推出全套服務來支持開發人員微調和「蒸餾」自己的模型。

像 Groq 這樣的創新者已經爲所有新模型構建了低延遲、低成本的推理。雲廠商已經準備好雲上部署 Llama3.1,包括 AWS、Azure、Google、Oracle 等。Scale.AI、戴爾、德勤等公司已準備好幫助企業採用 Llama 並使用自己的數據訓練自定義模型。

截圖來源:Meet Llama 3.1
截圖來源:Meet Llama 3.1

Meta 大力投資開源的根本原因,當然是希望確保其可以獲得領先的模型。

但扎克伯格稱,在 Llama-3.1 之前,他本能地認爲,如果 Llama 開源,就會有一個社區自發地圍繞它成長。或許是考慮到模型的部署不同於其他開源項目,還需要很多動手操作的環節、也需要很多資源支持,扎克伯格決定在擴展生態系統上更積極。

「我相信 Llama 3.1 版本將成爲行業的一個轉折點,大多數開發人員開始主要使用開源,並且我預計這種方法只會從這裏開始發展。」

OpenAI 的願景是構建一個大 AI,Anthropic 和谷歌也有類似的願景。但 Meta 的願景是有很多不同的模型。每個創業公司、每個企業、每個政府都希望擁有自己的定製模型。而當閉源生態系統比開源系統好得多時,使用現成的閉源模型是更好的選擇,但現在不同了。

現在,開源基本上彌合了這一差距,人們現在有動力去定製和構建並訓練適合他們需求的模型,將他們的數據訓練到模型中。

誰能用上 Llama 3.1?

官方報告指出,Llama 3.1 使用了超過 1.6 萬個英偉達 H100 GPU 訓練而來,The Verge 根據其所用英偉達芯片的成本估計,其訓練成本爲數億美元。

能省去這麼一大筆錢,還有一個最強的基座模型,這是對開源最強模型的本能期待。但把模型落地到場景裏,還有一個迫在眉睫的現實問題——到底有多少開發者有能力把 4050 億參數的密集模型用起來。

深度學習框架 PyTorch 的聯合創始人、Facebook AI Research (FAIR) 的研究員 Soumith Chintala 發推稱 Meta 調度 1.6 萬 H100 GPU 算力集群的有效訓練時間達到 90%。|圖片來源:X.com

Llama3 論文中,有很長的篇幅在講基礎設施,1.6 萬張 H100 集群在訓練過程中會如何失敗,包括如何並行化、保持集群可靠等。對此,英偉達高級科學家 Jim Fan 轉發點評,「基礎設施工作是人工智能領域最被低估的工作,我能從這張表中的數字感受到內臟的疼痛和折磨」。

就運行 Llama 的開源模型而言,The Information 此前報道,應用程序開發者已經能夠使用一組八個連接的 AI 服務器芯片(稱爲節點)來運行開源模型。Llama 3 的較小版本可以正常運行,但較大的模型可能無法適應單個節點,而是需要多個節點。

幫助開發人員運行開源模型的推理提供商表示,這會帶來很多複雜性。爲大模型提供支持的節點必須能夠協同工作,或者相互「交談」,而這並不容易設置。在某些情況下,這意味着節點在物理上必須彼此靠近。

通常,對於較小的模型,推理提供商可以使用相同的節點來處理不同客戶的請求,只要他們使用相同的 LLM。然而,對於較大的模型變得更加困難,因爲它們需要同時協調多個節點(多節點推理)。

有推理供應商稱,可能需要幾周甚至幾個月的時間來重新設計他們的系統,以便能夠處理來自 Meta 的 4050 億個參數模型。在一日千里的大模型領域,這是很多時間。

同時,這些多節點配置也會提高運行模型的成本,儘管模型是免費提供的,但運行成本有時已經高於閉源模型

Meta 當然意識到這個問題,與最大開源模型一同推出的,還有生態夥伴的合作方案,可以幫助任何開發者部署 Llama3.1 和各種工程化調優任務。但它仍然可能成爲開發者使用 Llama3「超大杯」的一個挑戰。

扎克伯格:樂於看到人們拿 Llama3.1 蒸餾小模型

在 Meta 看來,Llama 開源「除了相對於閉源模型具有明顯更好的性價比之外,405B 模型的開放性這一事實將使其成爲微調和蒸餾較小模型的最佳選擇」。

此前,OpenAI 發現字節跳動通過大量與 GPT-4 對話、蒸餾其高質量數據後,第一時間封號、禁止了這種做法。現在,Meta 卻主動提出讓大家蒸餾。更值得玩味的是,開源一個最強模型後的使用場景不是免費拿它去做 AI 應用,而是蒸餾自己的小模型。

ChatGPT 發佈一年半以來,真實的市場需求下,很多企業並不會大規模使用大模型 API,而是基於開源模型做微調、從最強模型中蒸餾出企業自己可用的小模型,因爲用戶和企業都非常關心他們的私人數據,以及關鍵模型的「自主可控」。

其中,微調(Fine-tuning)指的是利用已有的預訓練模型,在新的數據集上繼續訓練,對模型的參數進行少量的調整和優化,以使其適應特定的任務或領域。

蒸餾(Distillation)則是一種將大型複雜模型的知識壓縮並傳遞給較小、較簡單模型的技術。能在保持一定性能的前提下,降低模型的計算量和參數規模,提高模型的部署效率和運行速度。

扎克伯格在一檔採訪節目中重申了這一點,「我最感興趣的是看到人們用它來蒸餾和微調自己的模型。我非常期待看到人們如何使用它,特別是現在我們制定了社區政策,允許人們將其用作教師模型來進行蒸餾和微調,基本上可以創建他們想要的任何其他模型」。

他認爲,人們會希望直接在 4050 億參數的模型上進行推理,因爲據 Meta 估計,這樣做的成本將比 GPT-4 低 50% 左右。人們可以將模型蒸餾到任何他們想要的大小,用於合成數據生成,作爲教師模型使用。

「Meta AI 將超過 ChatGPT」

在大模型上,擁有最多 Super App 的 Meta,必須確保始終能夠獲得最好的 AI 技術。爲了實現這一目標,開源是 Meta 的手段之一,策略則是建立一個強大的、開放的 AI 生態系統。

但這也帶來一個質疑,Meta 沒有像亞馬遜、谷歌和微軟那樣擁有能夠利用大模型推動業務的雲計算,這就意味着 Meta 將其如此巨大的投入轉化爲收入的能力更加有限。

扎克伯格反而將這一質疑視爲優勢,他稱,「出售大模型的訪問權限不是我們的商業模式。這意味着公開發布 Llama 不會像閉源模型廠商那樣削弱收入、可持續性或研究、投資能力。」

Meta 的 AI 商業化,目前仍是改進其廣告業務、使其新的 AI 助手(Meta AI)成爲殺手級 AI 用例

Llama 3.1 現在爲 Meta AI 提供支持,Meta AI 是 Meta 應用程序和雷朋智能眼鏡中提供的 AI 助手,它被定位爲像 ChatGPT 這樣的通用聊天機器人,幾乎可以在 Instagram、Facebook 和 WhatsApp 的任何地方找到。

可選 Llama 3.1 支持 Meta AI|圖片來源:Meta 官網
可選 Llama 3.1 支持 Meta AI|圖片來源:Meta 官網

從本週開始,Llama 3.1 將首先通過美國的 WhatsApp 和 Meta AI 網站訪問,隨後在接下來的幾周內通過 Instagram 和 Facebook 訪問。它正在更新以支持新語言,包括法語、德語、印地語、意大利語和西班牙語。

伴隨 Llama 3.1 的發佈,Meta AI 添加了一項新的「想象我」功能,可以根據用戶的特定肖像生成圖像的功能。通過以這種方式而不是通過個人資料中的照片捕捉用戶肖像,Meta 有望避免創建深度僞造(Deepfake)機器。

Meta AI 也將在未來幾周內出現在 Quest 耳機中,取代其語音命令界面。就像它在 Meta Ray-Ban 眼鏡中的實現一樣,用戶能夠在 Quest 上使用 Meta AI 來識別和了解耳機直通模式下正在查看的內容,該模式通過顯示屏顯示現實世界。

扎克伯格在 Instagram 上發帖稱,數億人已經使用了 Meta AI。他預測,到今年年底,Meta AI 將超過 ChatGPT(ChatGPT 擁有超過 1 億用戶),成爲使用最廣泛被使用的 AI 助手。

對於未來的 AI 應用圖景,扎克伯格稱,Meta 的願景是,應該有許多不同的 AI 及其 AI 服務,而不僅僅是單一的 AI,這一看法也影響了 Meta 的開源方法和產品路線圖。

「我們的重點是讓每個創作者和每個小企業都能創建自己的 AI Agent,使每個人都能在我們的平台上創建他們想要的 AI Agent,這些都是巨大的市場。世界上有數億的小企業,一個企業可以通過幾次點擊就能創建一個 AI Agent 來進行客戶支持、銷售,並與所有客戶溝通。未來每個企業都會像現在有電子郵件地址、網站和社交媒體一樣,擁有一個他們的客戶可以交流的 AI Agent。我們將生活在一個擁有數億甚至數十億不同 AI Agent 的世界裏,可能最終 AI Agent 的數量會超過世界上的人口,人們將以各種不同的方式與它們互動。這是產品願景的一部分,其中有很多商業機會,這是我們希望賺錢的地方。」

最後,他還劇透,Llama-4 已經在路上了,甚至不止 Llama4。「規劃計算集群和數據軌跡不僅僅是針對 Llama-4,而是未來四五個版本的 Llama,這確實是件有趣的事情,因爲這些都是需要長期投資的事情,建設數據中心、配套的電力、芯片架構和網絡架構等」。

編輯/Somer

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論