share_log

扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金

扎克伯格最新採訪:Meta最強開源模型Llama 3憑什麼值百億美金

騰訊科技 ·  04/19 21:19

來源:騰訊科技

4月19日消息,據國外媒體報道,美國當地時間週四,Facebook母公司$Meta Platforms (META.US)$重磅推出了其迄今最強大的開源人工智能(AI)模型——Llama 3,意圖在激烈的行業競爭中追趕領先者OpenAI。此次發佈的Llama 3模型,包括80億和700億參數的兩個版本,而未來還將推出超過4000億參數的頂配版,凸顯了Meta在AI領域的雄心壯志。

據悉,Llama 3在多項行業基準測試中表現出卓越的性能,並新增了諸多功能,如改進的推理能力等。Meta計劃將Llama 3深度整合到其虛擬助手Meta AI中,這款助手已廣泛應用於Facebook、Instagram、WhatsApp和Messenger等熱門應用,並即將迎來新一輪的更新,爲用戶帶來更加智能、便捷的體驗。

此外,Meta還宣佈Llama 3將很快在亞馬遜AWS、谷歌雲、IBM的雲平台WatsonX、微軟雲Azure和英偉達的NIM等平台上推出,並得到了AMD、戴爾、英特爾、英偉達等硬件巨頭的支持。這一系列的合作與整合,無疑將進一步加速Llama 3在全球範圍內的普及和應用。

在Meta發佈Llama 3的重要時刻,該公司首席執行官馬克·扎克伯格(Mark Zuckerberg)接受了知名科技播客主持人達瓦克什·帕特爾(Dwarkesh Patel)的專訪。他們圍繞Llama 3、通用人工智能(AGI)、能源瓶頸問題、人工智能技術的戰略意義、開源的潛在風險、元宇宙(Metaverse)等話題展開了深入的探討。同時,扎克伯格還分享了開源100億美元模型和定製芯片源代碼的決策過程。

以下爲此次專訪實錄:

1、Llama 3頂配版正在訓練中

帕特爾:馬克,非常榮幸能夠邀請你來到我們的播客節目。

扎克伯格:感謝你的邀請,帕特爾。很高興能來,我一直都很喜歡你們的播客節目。

帕特爾:太好了,謝謝!現在,讓我們先來聊聊Llama 3吧!請給我分享一些關於這個最新大模型和Meta AI的亮點和激動人心的新進展。

扎克伯格:我想大多數人可能更關注Meta AI的新版本,但實際上,我們在模型升級方面所做的努力才是重中之重。我們正在推出Llama 3。我們既將其作爲開源項目提供給開發者社區,也將用它來支持Meta AI。關於Llama 3,我相信我們會有很多有趣的話題要聊。但我認爲,最重要的是,現在我們相信Meta AI是最智能、最自由可用的AI助手,人們可以隨時隨地使用它。

此外,我們還整合了谷歌和必應的實時知識,讓AI助手能夠提供更準確、更全面的信息。我們計劃讓它在我們的應用中變得更加顯眼,比如在Facebook和Messenger的頂部,你將能夠直接使用搜索框來提出任何問題。除了這些,我們還增加了一些全新的創作功能,我認爲這些功能非常酷,相信大家一定會喜歡。

尤其是動畫功能,你可以輕鬆地將任何圖片製作成動畫,這非常有趣。這裏有一個令人驚奇的功能,就是它能夠在你打字的同時,實時生成並更新高質量圖像。你只需要輸入查詢內容,比如“給我展示一張在田野裏吃夏威夷果、喝啤酒的場景,背景裏有奶牛、有山”,它就會根據你的輸入實時更新圖像,這種體驗簡直太神奇了。我相信大家會喜歡這個功能。

這就是大多數人將會看到的一些明顯變化。我們正在逐步推出這些新功能,雖然目前還不是全球範圍內都可用,但我們會先從一些國家開始,並在接下來的幾周和幾個月內逐步擴大範圍。

我認爲這將是一個非常大的突破,我很高興能讓大家體驗到它。但如果你想要深入了解的話,Llama 3無疑是我們最具技術趣味性的部分。我們正在訓練三個不同規模的Llama 3模型,包括80億參數、700億參數以及4050億參數版本。

目前,前兩個版本已經準備就緒,而最大規模的模型仍在訓練中。雖然今天我們不能立即發佈4050億參數的版本,但我對80億和700億參數模型的表現充滿信心。它們在各自的規模上均處於行業領先地位,我們也將通過博客文章詳細公佈它們的基準測試結果,讓大家能夠深入了解它們的性能。

當然,Llama 3是開源的,這意味着開發者們將有機會親自嘗試並探索它的潛力。我們還有一系列精心規劃的發佈路線圖,將帶來多模態、更多語言支持以及更長的上下文窗口(Context Window,是指語言模型在生成文本時,所考慮的文本片段的大小範圍)等功能。預計在今年晚些時候,我們將推出那款令人期待的4050億參數版本。根據目前的訓練進展,它的MMLU(跨模態學習理解)得分已經接近85,我們預期它將在衆多基準測試中展現出卓越的性能。

至於700億參數的模型,它同樣表現出色。今天我們正式發佈它,它的MMLU得分約爲82,並在數學和推理方面取得了不俗的成績。我相信,讓用戶能夠體驗到這款模型將會非常有趣和有意義。

我想強調的是,即使是80億參數的模型,其性能也幾乎與我們之前發佈的Llama-2版本相媲美。這意味着,即使是“最小”的Llama-3,在功能上也幾乎與“最大”的Llama-2一樣強大。

帕特爾:在我們深入剖析這些模型之前,我想回溯一下歷史。我記得,在2022年,Meta面臨着股價的大幅下滑,當時人們對你們採購英偉達H100芯片的大筆投資充滿了疑惑。元宇宙的概念並未得到市場的廣泛認可,我猜想,你那時投資H100的決策,是出於何種考量呢?你是如何預知到這些GPU的需求的?

扎克伯格:我想,當時我們正處於Reels項目的開發階段。我們始終堅信,要預留足夠的容量來應對那些尚未預見到的創新,而Reels項目正是一個這樣的例子。我們發現,爲了訓練模型,我們需要更多的GPU。這是一個巨大的轉變,因爲我們的服務不再僅僅基於你所關注的人或頁面來排列內容,而是開始大力推薦所謂的“未連接內容”——那些來自你未關注的人或頁面的內容。

因此,我們可能展示的內容候選集已經從數千個激增到了數億個。這自然需要一個全新的基礎設施來支撐。我們已經在構建這樣的基礎設施,但在追趕TikTok的步伐時,我們遇到了瓶頸,無法迅速達到我們的期望。看到這種情況,我意識到:“我們必須確保自己不再陷入這種被動局面。所以,我們不僅訂購了足夠完成Reels和內容排序工作的GPU,而且訂購量還翻了一番。”我們始終堅守的原則是,未來總會有我們無法預見的新事物出現,我們必須爲此做好準備。

帕特爾:你知道那會是人工智能嗎?

扎克伯格:我們原本以爲這應該與訓練大模型有關。但隨後我意識到,它與內容推薦更爲緊密相關。經營公司,就像打遊戲,總有新的挑戰出現。當時,我全身心投入Reels和其他內容推薦功能的開發中,希望它們能發揮巨大作用。如今,Instagram和Facebook能夠向用戶展示他們感興趣的內容,即使這些內容來自他們未曾關注的人,這無疑是一個巨大的飛躍。回顧過去,那個決定無疑是明智的,它源於我們曾經落後的教訓。這並不是說我們曾經“遙遙領先”過,實際上,很多決定之所以現在看來正確,是因爲我們曾犯過錯誤,並從中汲取了教訓。

帕特爾:2006年,你拒絕了10億美元的收購提議,但我想,應該有一個價格,你會考慮出售Facebook,對吧?你心中有沒有一個估值,覺得“這才是Facebook真正的價值,而他們並沒有給出這個價錢?” 我知道,如果給你開出5萬億美元,你肯定會欣然接受。那麼,你如何看待這個決定,是基於怎樣的考量呢?

扎克伯格:我認爲,這主要是個人選擇的問題。回首當年,我並不確定自己是否已經足夠成熟來做出這樣的決策。周圍有很多人都在討論10億美元的價格,他們基於各種理由進行分析,比如預期的收入和規模。但這些都遠遠超出了我們當時所處的階段。說實話,我當時並沒有足夠的財務知識來參與這樣的討論,但我內心深處對我們所做的事情有着堅定的信念。

我也做過一些簡單的分析,比如“如果我不做這個,我會去做什麼?其實,我很喜歡創造新東西,喜歡幫助人們進行溝通,喜歡了解人們的動態以及人與人之間的互動。所以,我想,如果我賣了公司,我可能又會去創造另一個類似的公司,而且我還挺滿意現在這個公司的。那麼,爲什麼要賣呢?”我認爲,人們做出的很多重大決定,其實都是基於我們的信念和價值觀。實際上,通過分析來準確預測未來是非常困難的。

2、通往AGI之路

帕特爾:Facebook人工智能研究所(FAIR)歷經了漫長的歲月,如今它似乎已深深嵌入到你們公司的核心之中。我想請教一下,在何時,構建通用人工智能(AGI)或你們所追求的那個宏偉目標,成爲了Meta的首要任務?

扎克伯格:其實,這個轉變已經悄然發生了一段時間。大約在10年前,我們創立了FAIR。當時的初衷是,在邁向通用人工智能或其他類似目標的道路上,會有許多創新湧現,而這些創新將不斷推動我們各項業務的進步。因此,我們並沒有將FAIR作爲一個獨立的產品來構思,而是作爲一個研究團隊來組建。在過去的10年裏,FAIR創造了許多獨特的成果,爲我們的所有產品帶來了顯著的改進。它推動了多個領域的發展,併爲這些領域內的其他創新者提供了靈感,它也因此創造出了更多改進我們產品的技術。這讓我感到非常振奮。

近年來,隨着ChatGPT的崛起以及圖像創作領域擴散模型的湧現,我們明顯感受到了一股巨大的變革之風。這些新技術令人歎爲觀止,它們將深刻影響人們與各個應用的交互方式。因此,我們決定組建第二個團隊——通用人工智能團隊,旨在將這些前沿技術融入我們的產品中,並構建能夠支撐所有不同產品的領先基礎模型。

當我們開始這一探索時,我們最初的想法是,我們所做的很多事情都具有很強的社交屬性。它幫助人們與創作者互動,幫助人們與企業溝通,也幫助企業銷售產品或提供客戶服務。此外,它還可以作爲智能助手,集成到我們的應用中、智能眼鏡以及虛擬現實中。因此,我們起初並不完全確定是否需要一個完整的通用人工智能來支持這些用例。然而,隨着我們在這些細微之處深入工作,我逐漸意識到,實際上通用人工智能的支持是必不可少的。例如,在開發Llama-2時,我們並沒有優先考慮編碼功能,因爲人們並不會在WhatsApp上向Meta AI提出大量的編碼問題。

帕特爾:現在他們會嗎?

扎克伯格:我不知道,也不確定WhatsApp、Facebook或Instagram是否會成爲用戶提出大量編碼問題的界面。或許是在我們即將上線的Meta.AI網站上,編碼問題會更爲普遍。然而,過去18個月裏,我們驚訝地發現,編碼實際上在衆多領域中都扮演着至關重要的角色,而不僅僅侷限於編程行業。即使用戶並未直接提出編碼相關的問題,對模型進行編碼訓練也有助於它們更爲精確地回答問題,並在不同領域的推理中展現出卓越的能力。以Llama-3爲例,我們專注於通過大量的編碼訓練來優化它,因爲這將使其在各個方面都表現出色,即便用戶的主要關注點並非編碼問題。

推理能力則是另一個絕佳的例證。設想一下,當你與創作者交流,或作爲企業試圖與客戶互動時,這種互動遠非簡單的“你發信息,我回復”模式。它涉及一個多步驟、深層次的思考過程,需要我們思考“如何更好地實現這個人的目標?”很多時候,客戶並不清楚自己真正需要什麼,或如何準確地提出問題。因此,僅僅回答問題並非人工智能的全部工作。我們需要更全面、更深入地思考,這實際上已轉化爲一個推理問題。如果某個團隊在推理方面取得了重大突破,而我們仍停留在基礎的聊天機器人階段,那麼我們的產品與其他團隊所構建的產品相比,將顯得黯然失色。最終,我們意識到,爲了保持領先,我們必須全力解決通用智能問題,因此我們加大了賭注和投資,以確保能夠取得這一突破。

帕特爾:那麼,能夠解決所有這些用戶用例的Llama版本,是否足夠強大到可以替代這座大樓裏所有程序員的水平呢?

扎克伯格:我認爲,隨着時間的推移,這些技術將逐步成熟並展現出巨大的潛力。然而,關於Llama-10或未來的版本是否能完全取代程序員,這是一個複雜的問題。我並不認爲我們是在試圖取代人類,而是希望通過這些工具,賦予人們更強大的能力,讓他們能夠完成更多以前難以想象的工作。

帕特爾:假設我們的程序員未來在使用Llama-10後,他們的工作效率會提升10倍嗎?

扎克伯格:我對此抱有極高的期望。我深信,人類的智能並非只由單一標準來衡量,因爲每個人都擁有獨特的技能和才華。在某個時刻,人工智能可能會在某些方面超越大多數人類的能力,但這完全取決於模型的強大程度。然而,我認爲這是一個逐步演進的過程,通用人工智能並非一蹴而就的事情。我們其實是在逐步爲模型增加不同的能力。

目前,多模態是我們重點關注的領域,從最初的照片、圖像和文本,未來還將涉及到視頻。鑑於我們對元宇宙的濃厚興趣,3D技術也顯得尤爲重要。此外,我特別關注的一個模態是情感理解,這是我在行業中鮮少看到其他團隊深入研究的領域。畢竟,人類大腦的大部分功能都致力於理解他人、解讀表情和情感。我堅信,如果我們能夠在這方面取得突破,使人工智能能夠真正理解並表達情感,那麼人與機器之間的互動將會變得前所未有的自然和深入。

你可能會認爲這僅僅是視頻或圖像的範疇,但實際上,它們是人類情感表達非常專業的一個版本。因此,除了提升模型在推理和記憶方面的能力外,我們還需要關注許多其他不同的能力。我相信,在未來,我們不會僅僅滿足於將問題輸入一個查詢窗口來尋求答案。我們將會有不同的記憶存儲方式或定製模型,這些模型將更加個性化地服務於人們。這些都是人工智能所需發展的不同能力。當然,我們還需要解決模型的大小問題。我們既關心大型模型,也關心如何在有限的空間內運行小型模型。例如,如果你正在運行類似Meta AI這樣的大型服務,那麼它主要依賴於服務器端的強大計算能力。然而,我們也期待這些先進的技術能夠融入小巧的設備中,比如智能眼鏡。由於智能眼鏡的空間非常有限,因此我們需要開發一種高效且輕量級的解決方案來適應這一環境。

帕特爾:假設我們投入100億美元,甚至最終高達1000億美元,用於在工業規模上實施智能推理,那麼這些資金將用於哪些具體用例呢?是模擬技術嗎?還是元宇宙中的人工智能應用?我們該如何有效利用數據中心來支持這些用例?

扎克伯格:根據我們的預測,智能推理將深刻改變幾乎所有的產品形態。我認爲,未來我們將看到一種Meta AI通用助手產品的出現。這種產品將從傳統的聊天機器人逐漸演變而來,從簡單地回答問題,發展到能夠接收並執行更復雜的任務。這將需要大量的推理能力,同時也將引發對計算能力的巨大需求。

此外,與其他智能主體(Agent,是指人工智能系統所具備的智能能力和行爲表現,包括感知、認知、推理、決策和行動等方面,從而在人機交互的環境中擔任主導角色,實現與人類的智能互動)的互動,也將成爲我們工作的重要部分,無論是爲企業還是創作者服務。我認爲,人類不會只與一個通用的人工智能互動,每個企業都將希望擁有代表其利益的人工智能。這些人工智能不會主要用來銷售競爭對手的產品,而是通過獨特的方式與企業、創作者和消費者互動。

特別值得一提的是,創作者將成爲受益於此項技術的重要群體。我們平台上擁有約2億創作者,他們普遍覺得每天的時間不夠用,而他們的社區又渴望與他們互動。如果我們能夠開發出一種技術,讓創作者能夠訓練自己的人工智能,並藉助它與社區保持互動,那將是非常強大的功能。

這些只是消費者用例的一部分。以我和我的妻子經營的陳-扎克伯格基金會爲例,我們正在科學領域開展許多工作,而人工智能無疑將在推動科學、醫療保健等領域的進步中發揮關鍵作用。最終,智能推理將影響幾乎每一個產品和經濟領域。

帕特爾:你提及了能夠執行多步驟任務的人工智能,這不禁讓我好奇,這是否意味着我們需要一個更龐大的模型來實現這一功能?比如,對於Llama-4,我們是否需要一個擁有700億參數的版本,僅需在正確的數據上進行訓練,它就能展現出驚人的能力?目前,我們的進展主要表現在哪些方面?是模型規模的擴大嗎?還是如您之前所說,是保持模型大小不變,但功能和應用場景更加多樣化?

扎克伯格:關於這個問題,我們目前可能還沒有明確的答案。但我觀察到的一個明顯趨勢是,我們有一個基礎的Llama模型,然後圍繞它構建一些特定於應用程序的代碼。這些代碼有些是針對特定用例的微調,但也有一些是關於如何讓Meta AI與谷歌、必應等工具協作以獲取實時知識的邏輯,這些並不是Llama基礎模型的一部分。在Llama-2的開發過程中,我們嘗試將一些這樣的功能融入模型,但更多是通過手工的方式。對於Llama-3,我們設定了一個目標,那就是將更多的此類功能內嵌到模型本身中。當我們開始探索更多類似智能主體的行爲時,我認爲其中一些功能仍然需要通過手工方式進行優化。而對於Llama-4,我們的目標是將更多的這些功能自然而然地融入模型中。

在每一步的進展中,你都能感受到未來可能的發展方向。我們開始嘗試各種可能性,圍繞模型進行各種實驗。這有助於我們更深入地理解,哪些功能應該被納入下一個版本的模型中。這樣,我們的模型就能變得更加通用,因爲顯然,任何通過手工編碼實現的功能雖然可以解鎖一些用例,但在本質上都是脆弱且不夠通用的。我們的目標是讓模型能夠自我學習、自我進化,以適應各種複雜多變的場景。

帕特爾:你提到的“將更多內容納入模型本身”,能否具體解釋一下,您是如何通過訓練將這些期望的功能融入模型中的?你所說的“納入模型本身”具體指的是什麼?

扎克伯格:以Llama-2爲例,它的工具使用功能相對具體和有限。而到了Llama-3,我們欣喜地發現其工具使用能力得到了顯著提升。現在,我們不必再手動編碼所有內容來使其能夠使用谷歌進行搜索,它已經能夠獨立完成這些任務。同樣,在編程、運行代碼以及其他一系列任務上,Llama-3也展現出了出色的能力。一旦我們獲得了這種能力,就可以預見我們接下來可以開始探索哪些新的可能性。我們不必等到Llama-4的出現才開始構建這些能力,因此我們可以提前圍繞它進行各種嘗試和實驗。雖然這些手工編碼的過程可能會使產品暫時變得更好,但它也爲我們指明瞭在下一個版本的模型中應該構建哪些內容的方向。

帕特爾:在開源社區對Llama-3進行的微調中,你最期待看到哪些用例?也許不是對你最有實用價值的那個,而是你最感興趣、最想嘗試的那個。比如,我聽說有人對古代歷史方面進行了微調,使得我們可以直接與古羅馬詩人維吉爾(Virgil)等歷史人物進行對話。

扎克伯格:我認爲這類事物的魅力就在於它總能帶給我們驚喜。任何我們認爲有價值的特定應用案例,都有可能去嘗試構建。我相信我們會看到更多精簡版本的模型出現。我也期待看到一個參數更少、更輕量級的模型,比如一個只有10億到20億參數的模型,甚至是一個5億參數的模型,看看它們能帶來哪些有趣且高效的應用。如果一個80億參數的模型幾乎與最大的Llama-2模型一樣強大,那麼一個10億參數的模型應該也能在某些領域展現出其獨特的價值。它們可以用於分類任務,或者用於在人們理解用戶查詢意圖並將其傳遞給更強大的模型進行精確處理之前的預處理工作。我認爲這將是社區可以發揮巨大作用的一個領域,幫助我們填補這些模型在應用上的空白。當然,我們也在考慮對這些模型進行精簡和優化,但目前我們的所有GPU資源都主要用於訓練4050億參數的模型。

帕特爾:你之前提到的GPU數量,我記得你說年底前會達到35萬個。

扎克伯格:對,那是我們的總目標。目前,我們已經建立了兩個大型的GPU集群,每個集群擁有約22000到24000個GPU,它們主要用於訓練大型的模型。當然,這些集群還承擔着我們公司其他許多重要的訓練任務,比如Reels模型、Facebook新聞推送和Instagram推送的訓練等。推理對我們來說確實是一個巨大的挑戰,因爲我們需要爲龐大的用戶群體提供服務。與其他從事類似工作的公司相比,我們所需的推理計算與訓練計算的比例可能要高得多,這主要是因爲我們所服務的社區規模極其龐大。

帕特爾:我注意到,在你們之前分享的材料中,有一個非常引人注目的點,那就是你們在訓練模型時使用的數據量實際上超過了僅用於訓練時的計算最優數據量。考慮到推理對你們和整個社區的重要性,擁有一個包含數萬億個token的模型確實非常有意義。

扎克伯格:關於700億參數的模型,我們觀察到一個有趣的現象。原本以爲隨着數據量的增加,模型的性能提升會逐漸趨於飽和。然而,我們訓練了大約15萬億個token後,發現模型仍然在不斷學習。即使在訓練的最後階段,它仍然展現出了強大的學習能力。我們或許還可以繼續給它輸入更多的token,以進一步提高其性能。

但作爲公司的經營者,我們需要在某個時刻做出決策:是否應該繼續將GPU資源用於進一步訓練這個700億參數的模型?還是應該轉向其他方向,比如開始爲Llama-4測試新的假設?我們需要在這兩者之間找到平衡。目前,我認爲我們在這個版本的700億參數模型上已經取得了不錯的平衡。當然,未來我們還會推出其他版本,比如700億參數的多模態版本,這將在接下來的一段時間內與大家見面。但有一點非常令人着迷,那就是目前的模型架構竟然能夠容納如此龐大的數據量。

3、能源瓶頸

帕特爾:這確實引人深思。那麼,對於未來的模型來說,這意味着什麼呢?你之前提及Llama-3的80億參數版本在某些方面甚至超越了700億參數的Llama-2。

扎克伯格:不、不,我可不想誇大其詞。它們的表現其實相當接近,數量級上非常相似。

帕特爾:那麼,我們是否可以期待Llama-4的700億參數版本能夠與Llama-3的4050億參數版本相媲美呢?未來的發展趨勢又會是怎樣的呢?

扎克伯格:這確實是一個大問題。說實話,沒人能確切預測。世界上最難預測的事情之一就是指數級增長的趨勢。它會持續多久?我堅信,我們將會繼續向前邁進。我認爲,投入100億美元,甚至1000億美元以上來建設基礎設施是非常值得的。假設這種增長趨勢能夠持續,我們將會得到一些真正令人震撼的成果,從而打造出令人驚歎的產品。但業內沒有人能確切地告訴你,它一定會以那個速度繼續擴展。從歷史上看,我們總會在某個時刻遇到發展的瓶頸。但如今,人們對這個領域寄予了極高的期望,或許這些瓶頸會很快被克服。這確實是一個值得我們深入思考的問題。

帕特爾:假設沒有這些瓶頸,世界會呈現怎樣的面貌呢?儘管這似乎不太可能,但如果技術進步真的能夠繼續以這種速度發展下去呢?

扎克伯格:無論如何,總會有新的挑戰和瓶頸出現。在過去的幾年裏,GPU的生產就是一個明顯的問題。即使有錢購買GPU的公司,也往往難以獲得所需的數量,因爲供應受到限制。但這種情況似乎正在逐步改善。如今,我們看到越來越多的公司正在考慮投入巨資來建設生產GPU的基礎設施。我認爲這種情況還會持續一段時間。

此外,資本投入也是一個需要考慮的問題。在什麼時候,投入更多的資本就不再具有性價比了呢?實際上,我認爲在我們遇到資本投入問題之前,能源問題會率先顯現。據我所知,目前還沒有人能夠建造出一個千兆瓦特的單一訓練集群。我們會遇到一些在全球範圍內都會變得日益困難的事情,比如獲取能源許可。這不僅僅是一個軟件問題,它涉及到政府的嚴格監管,我認爲這比我們許多技術界人士所感受到的還要嚴格。當然,如果你是從小公司起步的,可能這種感覺並不那麼強烈。但當我們與不同的政府部門和監管機構打交道時,我們需要遵守大量的規則,並確保我們在全球範圍內都做得合規。但毫無疑問,能源方面將是我們面臨的一個主要限制。

如果你談論的是建造大型新發電廠或大型建築,並需要跨越其他私有或公有土地來建設輸電線路,那麼這將是一個受到嚴格監管的項目。你需要考慮的是多年的前置時間。如果我們想要建立一個龐大的設施,爲其提供動力將是一個長期而複雜的項目。我相信人們會努力去實現這一目標,但我不認爲這會像達到某種人工智能水平、獲得大量資本並投入其中那樣簡單和神奇,然後突然之間模型就會有飛躍式的進步。

帕特爾:在推動人工智能發展的道路上,我們是否會遇到一些連Meta這樣的公司都無法獨自克服的瓶頸?是否存在某些項目,即使是像Meta這樣的公司也沒有足夠的資源去完成?即使你們的研發預算或資本支出預算增加10倍,仍然無法實施?這是否是你心中所想,但鑑於目前的Meta,你們甚至無法通過發行股票或債券來籌集足夠的資金?

扎克伯格:能源問題無疑是其中的一大挑戰。我堅信,如果我們能夠解決能源供應的問題,我們完全有可能建造出比現在規模更大的算力集群。

帕特爾:那麼,這從根本上來說是資金瓶頸的限制嗎?

扎克伯格:資金確實是其中一個方面,但我認爲時間也是一個不可忽視的因素。目前,許多數據中心的規模大約在50兆瓦到100兆瓦之間,大型的可能會達到150兆瓦。假設你擁有一個完整的數據中心,並配備了所有必要的訓練設備,你建造了目前技術允許的最大集群。我認爲很多公司都已經接近或達到了這樣的水平。但是,當我們談論建造300兆瓦、500兆瓦甚至1吉瓦的數據中心時,情況就完全不同了。目前,還沒有人嘗試過建造1吉瓦的數據中心。我相信這將成爲可能,只是需要時間的積累。然而,這不會發生在明年,因爲其中涉及的許多事情需要數年時間來完成。從這個角度來看,我認爲一個1吉瓦規模的數據中心將需要一個相當於核電站的能源供應來支持模型訓練。

帕特爾:亞馬遜是否已經在這方面有所嘗試?他們似乎有一個950兆瓦的設施。

扎克伯格:關於亞馬遜的具體做法,我並不是非常了解,你可能需要直接向他們詢問。

帕特爾:訓練不一定非得侷限在單一地點,對吧?如果分佈式訓練是有效的,那麼其實我們可以考慮將它分散到多個地方進行。

扎克伯格:我認爲這是一個非常重要的問題,關乎於未來訓練大型模型的方式。從目前的發展趨勢來看,通過推理生成合成數據,再將這些數據用於模型的訓練,似乎是一個很有潛力的方向。雖然目前我還不清楚這種合成數據與直接訓練之間的比例會是多少,但我相信合成數據的生成在某種程度上已經越來越接近推理的過程。顯然,如果這種方式被用於訓練模型,那麼它將成爲整個訓練流程中不可或缺的一部分。

帕特爾:所以,這仍然是一個懸而未決的問題,關於如何找到這種平衡,以及它未來的發展方向。那麼,這種趨勢有可能在Llama-3,甚至Llama-4及以後的版本上實現嗎?也就是說,如果你們發佈了模型,那些擁有強大計算能力的實體,比如科威特或阿聯酋,他們就可以利用這類模型,使某些應用變得更加智能。

扎克伯格:我完全同意這種可能性。確實,我認爲將來會有這樣的動態發展。但同時,我也認爲模型架構本身存在某些根本的侷限性。以Llama-3爲例,儘管我們已經取得了顯著的進步,但我相信其架構仍有進一步優化的空間。正如我之前所說,我們感覺通過提供更多的數據或者進行某些關鍵步驟的迭代,模型的性能還可以繼續提升。

事實上,我們已經看到許多公司基於Llama-2的700億參數模型架構構建出了新的模型。然而,對於像Llama-3的700億或4050億參數這樣的模型,要進行代際改進並非易事,目前還沒有類似的開源模型出現。我認爲這是一個巨大的挑戰,但也是一個巨大的機遇。然而,我仍然認爲,基於現有的模型架構,人們能夠構建出的東西並不是無限可擴展的。在達到下一個技術飛躍之前,我們可能只能在現有基礎上進行一些優化和改進。

4、AI會在一夜之間失控嗎?

帕特爾:下面讓我們從更宏觀的角度來看,你認爲未來幾十年人工智能技術將如何發展?它是否會讓你覺得像另一種技術,比如元宇宙或社交技術,還是你覺得它在人類歷史上具有根本性的不同?

扎克伯格:我認爲人工智能將會是非常基礎性的技術。它更像計算機的發明,將催生一系列全新的應用。就像網絡或手機的出現,使得許多以前不可能的事情變得可能,人們開始重新思考這些體驗。因此,我認爲人工智能將會帶來類似的變革,但它是一種更深層次的創新。我的感覺是,它就像是從沒有計算機到有計算機的轉變。然而,要準確預測它究竟會如何發展,確實很難。從更長的宇宙時間跨度來看,這一變革將會很快發生,可能就在幾十年內。有些人確實擔心它會迅速失控,一夜之間從某種程度的智能變得極其智能。但我認爲,由於存在許多物理限制,這種情況不太可能發生。我並不認爲我們會一夜之間面臨人工智能失控的局面。我相信我們將有足夠的時間去適應。但人工智能將真正改變我們的工作方式,爲人們提供創新的工具去做不同的事情。它將使人們能夠更自由地追求他們真正想做的事情。

帕特爾:也許不是一夜之間,但從宇宙時間的角度來看,你認爲我們可以這樣看待這些里程碑嗎?人類進化了,然後人工智能出現了,接着它們可能走向銀河系。這可能需要幾十年,也可能需要一個世紀,但這是你眼中正在發生的宏偉計劃嗎?我指的是像計算機甚至是火這樣的其他技術,但人工智能本身的發展是否與人類最初的進化一樣重要?

扎克伯格:我認爲這很難判斷。人類的歷史基本上是一部逐漸認識到我們在某些方面並不獨特,但同時又意識到人類仍然非常特別的歷程。我們曾認爲地球是宇宙的中心,但事實並非如此,然而人類依然保持着非凡的特質,對吧?我認爲人們經常存在另一種偏見,即認爲智能與生命在某種程度上有着緊密的聯繫,但事實並非如此。我們還沒有對意識或生命有足夠清晰的定義來全面理解這個問題。有很多科幻小說描述了智能生命的創造,這些智能開始展現出各種人類般的行爲等。但目前的趨勢似乎表明,智能可以相當獨立於意識、能動性和其他特質存在,這使得它成爲一個非常有價值的工具。

5、開源的危險

扎克伯格:預測這些事物隨時間發展的方向極具挑戰性,因此,我認爲任何人都應避免以教條的方式規劃它們的開發或用途。每次發佈新產品時,我們都需要重新評估。我們非常支持開源,但並不意味着我們會公開所有成果。我傾向於認爲,開源對社區和我們自身都是有益的,因爲這將促進創新。然而,如果某個時刻,這些技術的能力發生了質的變化,而我們覺得開源是不負責任的,那麼我們會選擇不公開。這一切都充滿了不確定性。

帕特爾:當你們研發Llama-4或Llama-5時,有沒有可能出現某種具體的質的變化,讓你們考慮是否應該開源?

扎克伯格:這個問題很難從抽象的角度來回答,因爲任何產品都可能存在潛在風險,關鍵在於我們如何有效地管理和緩解這些風險。在Llama-2中,我們已經面臨了一些挑戰,並投入了大量資源來確保它不會被用於不良目的,如暴力行爲等。這並不意味着它已經成了智能主體,只是因爲它擁有大量有關世界的知識,能夠回答一系列可能帶來風險的問題。因此,我認爲問題在於如何識別並緩解其潛在的不良行爲,而非行爲本身。

在我看來,評估事物的好壞涉及多個維度,很難事先列舉所有可能性。以社交媒體爲例,我們已經處理了多種類型的危害行爲,並將它們分爲18或19個類別。我們建立了人工智能系統來識別這些行爲,以減少它們在我們平台上的發生。隨着時間的推移,我相信我們會進一步細化這些分類。這是我們一直在努力研究的問題,因爲我們希望確保對此有深入的理解。

帕特爾:我認爲廣泛部署人工智能系統,讓每個人都有機會使用它們是非常重要的。如果未來的人工智能系統沒有得到廣泛應用,我會感到失望。同時,我也希望更深入地了解如何緩解潛在風險。如果緩解措施主要是微調,那麼開放模型權重的好處在於,人們可以基於這些能力進行更深入的調整。目前,這些模型還遠未達到那個水平,更像是高級搜索引擎。但如果我能向它們展示我的培養皿,並讓它們解釋爲什麼我的天花樣本沒有生長以及如何改進,那麼在這種情況下,如何確保安全和有效地使用這些模型呢?畢竟,有人可能會對這些模型進行微調以滿足自己的需求。

扎克伯格:確實,這是一個複雜的問題。我認爲,大多數人會選擇直接使用現成的模型,但也有一些心懷不軌的人可能會試圖利用這些模型進行不良行爲。因此,這個問題確實值得我們深思。從哲學角度來看,我之所以如此支持開源,是因爲我認爲未來如果人工智能過度集中化,其潛在風險可能不亞於它的廣泛傳播。許多人都在思考:“如果我們能夠做到這些,那麼這些技術在社會上的廣泛應用是否會成爲壞事?”同時,另一個值得思考的問題是,如果一個機構擁有比其他所有人更強大的人工智能,這是否也是一件壞事?

我可以用安全領域的一個類比來解釋。想象一下,如果你能夠提前了解並利用某些安全漏洞,那麼你幾乎可以輕鬆地入侵任何系統。這並不僅僅侷限於人工智能領域。因此,我們不能單純依賴一個高度智能的人工智能系統來識別並修復所有漏洞,儘管這在理論上似乎可行。那麼,我們社會是如何應對這一問題的呢?開源軟件在其中扮演了重要角色。它使得軟件的改進不再侷限於單一公司的範圍,而是能夠廣泛應用於各種系統,包括銀行、醫院和政府機構。隨着軟件的不斷完善,得益於更多的人可以參與查看和測試,關於這些軟件如何工作的標準也逐漸建立。當需要升級時,全世界可以迅速共同行動。我認爲,在一個人工智能廣泛部署的世界中,隨着時間的推移,這些人工智能系統會逐步得到加固,所有不同的系統都將以某種方式得到控制。

在我看來,這種分佈式、廣泛部署的方式比集中化的方式更爲健康。當然,各方面都存在風險,但我認爲人們並沒有充分討論這種風險。確實存在人工智能系統被用於不良行爲的風險。然而,我更擔心的是,一個不可信的實體擁有超級強大的人工智能系統,我認爲這可能是一個更大的風險。

帕特爾:他們會不會因爲擁有別人沒有的武器而試圖推翻我們的政府?或者只是製造大量的混亂?

扎克伯格:直覺告訴我,出於經濟、安全和其他多種原因,這些技術最終會變得非常重要和有價值。如果我們的敵人或我們不信任的人獲得了更強大的技術,那麼這確實可能成爲一個嚴重的問題。因此,我認爲最好的緩解方式可能是推動好的開源人工智能的發展,讓它成爲行業的標準,並在多個方面發揮領導作用。

帕特爾:開源人工智能系統確實有助於建立一個更公平、更平衡的競技場,這在我看來是極爲合理的。如果這種機制能夠成功運作,那無疑是我所期待的未來。然而,我想進一步探討的是,從機制層面來看,開源人工智能是如何防止有人利用他們的人工智能系統製造混亂的?比如說,如果有人試圖製造生物武器,我們是否可以通過在全球範圍內進行大量的研發,以極快的速度開發出相應的疫苗來應對?這其中的具體運作機制是怎樣的呢?

扎克伯格:從我之前提及的安全角度來看,我認爲擁有較弱人工智能系統的人試圖入侵受更強人工智能保護的系統,其成功率會相對較低。

帕特爾:但是,我們如何確保世界上的所有事情都能像這樣得到妥善處理呢?比如說,生物武器的情況可能並非如此簡單。

扎克伯格:確實,我無法斷言世界上的所有事情都能如此順利解決。生物武器是那些對此類問題深感憂慮的人們所關注的焦點之一,我認爲這種擔憂是有道理的。儘管存在一些緩解措施,例如嘗試不在模型中訓練某些知識,但我們必須認識到,在某些情況下,如果遇到了極其惡劣的行爲者,且沒有其他人工智能來制衡他們並了解威脅的嚴重性,那麼這確實可能成爲一個風險。這是我們必須高度重視的問題之一。

帕特爾:在部署這些系統時,你有沒有遇到過一些出乎意料的情況?比如,在訓練Llama-4的過程中,它可能出於某種原因對你撒謊。當然,對於Llama-4這樣的系統,這種情況可能並不常見,但你有沒有考慮過類似的情況?比如,你會非常擔心繫統的欺騙性,以及這個系統的數十億個副本在野外自由傳播可能帶來的問題?

扎克伯格:目前,我們已經觀察到許多幻覺現象。我認爲,如何區分幻覺和欺騙是一個值得深入探討的問題。確實,存在許多風險和需要考慮的因素。在運營我們的公司時,我試圖至少平衡這些長期的理論風險與我認爲目前確實存在的實際風險。因此,當談到欺騙時,我最擔心的是有人可能會利用這種技術製造錯誤信息,並通過我們的網絡或其他網絡進行傳播。爲了對抗這種有害內容,我們正在構建比敵對系統更智能的人工智能系統。

這構成了我對此事的部分理解。通過觀察人們在社交網絡上造成或試圖造成的不同類型的傷害,我發現其中有些傷害並非極具對抗性。舉例來說,仇恨言論在某種層面上並非高度對抗性,因爲人們並沒有因爲網絡言論而變得更加種族歧視。在這一方面,我認爲人工智能在處理這些問題時通常比人類更爲複雜和迅速。然而,我們雙方都存在問題。人們可能出於各種目的做出不當行爲,無論是試圖煽動暴力還是其他不當行爲,但我們也不得不面對大量的誤報情況,即我們可能錯誤地審查了一些本不應審查的內容。這種情況無疑讓許多人感到困擾。因此,我相信隨着人工智能在這方面變得越來越精確,情況將會逐漸改善。

無論是Llama-4還是未來的Llama-6,我們都需要深入思考我們觀察到的行爲,而且不僅僅是我們。你選擇將這個項目開源,部分原因也是因爲有衆多的研究者也在致力於此。因此,我們希望能夠與其他研究者共享觀察結果,共同探索可能的緩解策略,並在確保一切安全的前提下,考慮將其開源。在可預見的未來,我樂觀地認爲我們能夠做到這一點。同時,在短期內,我們也不能忽視人們今天試圖利用模型進行不當行爲的問題。即使這些行爲並非毀滅性,但在運營我們的服務時,我們也深知一些相當嚴重的日常危害。

帕特爾:我發現合成數據的事情真的非常有趣。使用當前的模型,通過反覆利用合成數據,可能會存在一個性能漸近線,這是有理論依據的。但假設這些模型變得更加聰明,能夠利用你在論文或即將發佈的博客文章中提到的那種技術,找到最正確的思維鏈。那麼,你爲何認爲這不會導致一個循環,即模型變得更聰明,產生更好的輸出,進而變得更聰明,如此往復呢?當然,這種變化不會一夜之間發生,但經過數月或數年的持續訓練,模型的確有可能變得更加智能。

扎克伯格:我認爲,在模型架構的參數範圍內,這種循環提升是有可能發生的。然而,就目前的80億參數模型而言,我並不認爲它們能夠達到與那些擁有數百億參數、並融入了最新研究成果的先進模型相同的水平。

帕特爾:關於這些模型,它們也將是開源的,對吧?

扎克伯格:是的,確實如此。但是,這一切的前提是我們必須成功解決先前討論過的那些挑戰和問題。我們當然希望如此,但我也深知在構建軟件的每個階段,儘管軟件本身有着巨大的潛力和可能性,但在某種程度上,其運行仍然受到芯片性能的物理限制。因此,我們總是面臨着各種物理層面的約束。模型能夠變得多大,實際上取決於我們所能獲取並用於推理的能量有多少。我對於人工智能技術的未來持非常樂觀的態度,相信它們將繼續迅速發展和改進。與此同時,我也比一些人更爲謹慎。我並不認爲失控的情況會特別容易發生,但我們仍然需要保持警惕,並認真考慮各種可能的風險。因此,我認爲保持開放選擇是非常有意義的。

6、凱撒大帝與元宇宙

帕特爾:好的,讓我們轉向另一個話題——元宇宙。在人類歷史的長河中,哪個時期你最想深入探索?是從公元前10萬年到現在,你只是想一窺那時的風貌嗎?這個探索必須侷限於過去嗎?

扎克伯格:確實,我更傾向於探索過去。美國曆史、古典歷史以及科學史都深深吸引着我。我認爲,能夠觀察並理解那些重大歷史進步是如何發生的,將是一件非常有趣的事情。然而,我們所能依賴的,只是那些有限的歷史記載。對於元宇宙來說,想要完全重現那些我們沒有記錄的歷史時期,恐怕會非常困難。實際上,我並不認爲回到過去會是元宇宙的主要應用之一,雖然這樣的功能在歷史教學等方面可能會很有用,但對我而言,最主要的事情是,無論我們身處世界的哪個角落,都能與他人實時互動、共同存在,我堅信這才是殺手級應用。

在之前關於人工智能的對話中,我們深入探討了許多背後的物理限制。技術教給我們的一個寶貴經驗是,我們應該努力將更多事物從物理束縛中解放出來,轉移到軟件領域,因爲軟件不僅更容易構建和進化,而且更易於普及。畢竟,不是每個人都能擁有數據中心,但很多人都能編寫代碼、獲取開源代碼,並對其進行修改和優化。元宇宙正是實現這一目標的理想平台。

這將是一個顛覆性的巨大變革,它將極大地改變人們對聚集和互動的認知。因此,人們將不再覺得爲了完成許多事情而必須親自聚在一起。當然,我也深信在某些情境下,親自相聚仍然具有無可替代的價值。這並非是一種非此即彼的選擇,元宇宙的出現並不意味着我們要完全放棄面對面的交流。然而,它確實爲我們提供了一個全新的維度,讓我們能夠更加便捷、高效地進行社交、建立聯繫、完成工作,並在工業、醫學等衆多領域發揮巨大的作用。

帕特爾:我們之前提到過一件事,你並沒有以十億美元的價格出售公司。對於元宇宙,你顯然也有着堅定的信念,儘管市場對此有所質疑。我很好奇,這種信心的來源是什麼?你說過“哦,我的價值觀,我的直覺”,但這樣的說法似乎有些籠統。你能具體說說與你自己有關的某些特質,或許我們能更好地理解你爲何對元宇宙如此有信心。

扎克伯格:我認爲這涉及到幾個不同的問題。首先,關於是什麼驅動我不斷前進?我們已經討論了很多主題。我熱愛創造,特別是圍繞人們如何交流、表達自己和工作的創造。在大學時,我主修計算機科學和心理學,這兩個領域的交集對我來說一直是非常關鍵的。這也是我強烈的驅動力所在。我不知道如何解釋,但我內心深處總覺得,如果我不去創造一些新東西,那我就做錯了什麼。即使在我們爲投資1000億美元於人工智能或元宇宙制定商業計劃時,我們的計劃已經相當清晰地表明,如果這些項目成功,將會帶來巨大的回報。

但當然,你不能從一開始就確定一切。人們總會有各種爭論和質疑。就像“你怎麼會有足夠的信心去做這件事?”對我來說,如果有一天我停止嘗試創造新東西,那我就失去了自我。我會去別的地方繼續創造。從根本上說,我無法想象自己只是運營某樣東西,而不去嘗試創造我認爲有趣的新事物。對我來說,我們是否要嘗試建造下一個東西,這不是問題。我就是無法停止創造。不僅在科技領域,我在生活的其他方面也是如此。例如,我們家在考艾島建了一個牧場,我親自參與了所有建築的設計工作。當我們開始養牛時,我就想:“好吧,我要養出世界上最好的牛。”然後我們開始規劃,如何建立起我們需要的一切來實現這個目標。這就是我!

帕特爾:我一直對一件事感到好奇:在高中和大學時期,年僅19歲的你就閱讀了大量的古代和古典書籍。我想知道,你從這些書籍中學到了哪些重要的教訓?不僅是你覺得有趣的內容,更重要的是,考慮到你當時所接觸的知識範圍畢竟有限。

扎克伯格:有一件事情讓我深感着迷,那就是凱撒·奧古斯都如何成爲皇帝,並努力建立和平。在那個時候,人們對和平並沒有真正的概念,他們理解的和平,只不過是在敵人再次攻擊之前的短暫間歇。他有着改變經濟從依賴僱傭軍和軍事主義到實現正和遊戲的遠見,這在當時是非常新穎的想法。這反映了一個非常基本的事實:人們在當時所能想象到的合理工作方式的邊界。

這個觀念既適用於元宇宙,也適用於人工智能這樣的領域。許多投資者和其他人難以理解我們爲什麼要開源這些技術。他們可能會說:“我不明白,既然開源了,那你們製作專有技術的時間豈不是會縮短?”但我認爲,這在技術領域是一個深刻的觀念,它實際上創造了更多的贏家。我不想過分強調這個類比,但我確實認爲,很多時候,人們難以理解構建事物的模型,難以理解這對人們爲什麼會是一件有價值的事情,或者爲什麼這會是世界上一個合理的狀態。實際上,合理的事情比人們想象的要多得多。

帕特爾:這真的很有意思。我可以分享一下我的想法嗎?可能有些離題,但我覺得,這也許是因爲歷史上一些重要人物在年輕時就已經嶄露頭角。例如,凱撒·奧古斯都在19歲時就已經成爲羅馬政治界的重要人物,他領導戰鬥,並建立了同盟。我想知道,19歲的你是不是也有過類似的想法:“既然凱撒·奧古斯都做到了,那麼我也能做到。”

扎克伯格:這確實是一個有趣的觀察,它不僅來自豐富的歷史,也與我們美國的歷史相呼應。我很喜歡畢加索說的一句話:“所有孩子都是藝術家,挑戰在於長大後如何保持藝術家的身份。”年輕時,我們更容易擁有瘋狂的想法。在你的生活、公司或你所建立的任何事物中,都存在一種與創新者困境類似的類比。在職業生涯的早期階段,你更容易調整方向,接受新想法,而不會因對其他事物的承諾而受阻。我認爲,這也是經營公司的一個有趣部分:如何保持活力,如何持續創新?

7、開源價值100億美元的模型

帕特爾:讓我們重新回到投資者和開源的話題上。設想一下,我們擁有一個價值高達100億美元的模型,且這個模型經過了嚴格的安全評估。同時,評估者們也能對模型進行微調。那麼,你會開源價值100億美元的模型嗎?

扎克伯格:只要這對我們有利,那麼開源就是一個值得考慮的選項。

帕特爾:但你真的會這麼做嗎?畢竟,這是投入了100億美元研發成本的模型,現在卻要將其開源。

扎克伯格:這是一個我們隨着時間流逝需要仔細權衡的問題。我們有着悠久的開源軟件傳統。通常來說,我們並不會將產品直接開源,比如Instagram的代碼。然而,我們確實會開源很多底層的基礎設施。比如,我們歷史上最大的開源項目之一便是開放計算項目(Open Compute Project),我們將服務器、網絡交換機和數據中心的設計全部開源。最終,這爲我們帶來了巨大的益處。儘管很多人都能夠設計服務器,但如今整個行業基本上都以我們的設計爲標準。這意味着整個供應鏈都是圍繞我們的設計建立起來的,從而提高了生產效率,降低了成本,爲我們節省了數十億美元。這實在是太好了。

開源可以以多種方式幫助我們。其中一種方式就是,如果人們能夠找到更經濟高效地運行模型的方法,那麼這對我們來說將是一個巨大的利好。畢竟,我們在這上面的投入將達到數十億,甚至數百億美元。因此,如果我們能夠提高10%的效率,那麼我們將能夠節省數十億或數百億美元。而且,如果市場上還有其他競爭模型存在,我們的開源行爲並不會給予某個模型瘋狂的優勢。相反,它將促進整個行業的進步和發展。

帕特爾:你如何看待模型訓練是否會走向商品化的趨勢呢?

扎克伯格:我認爲訓練的發展有多種可能性,其中商品化確實是其中之一。商品化意味着隨着市場上選擇的增多,訓練的成本將大大降低,變得更加親民。另一種可能性是質量的提升。你提到了微調,目前對於許多大型模型來說,微調的選項仍然相當有限。雖然有些選擇存在,但通常並不適用於最大的模型。如果我們能夠克服這一挑戰,實現更廣泛的微調功能,那麼不同應用或特定用例中將能夠展現出更多樣化的功能,或者將這些模型集成到特定的工具鏈中。這不僅可以加速開發進程,還可能促成質量上的差異化。

這裏,我想用一個類比來說明。在移動生態系統中,一個普遍存在的問題是存在兩家守門人公司——蘋果和谷歌,它們對開發者構建的內容施加限制。從經濟層面來看,這就像我們在構建某樣東西時,它們會收取高額費用。但更讓我擔憂的是質量層面。很多時候,我們想要發佈某些功能,但蘋果卻會拒絕,這確實令人沮喪。因此,我們需要思考的是,我們是否正在爲人工智能設置一個由少數幾家運行封閉模型的公司主導的世界,它們控制着API,從而決定開發者能夠構建什麼?就我們而言,我可以肯定地說,我們構建自己的模型是爲了確保不會陷入這種境地。我們不希望其他公司來限制我們的創新能力。從開源的角度來看,我認爲許多開發者也不希望受到這些公司的限制。

因此,關鍵問題在於圍繞這些模型構建的生態系統會呈現出怎樣的面貌?將會湧現出哪些有趣的新事物?它們能在多大程度上改進我們的產品?我相信,如果這些模型的發展最終能夠像我們的數據庫、緩存系統或架構那樣,社區將能夠爲其貢獻寶貴的價值,使我們的產品更加出色。當然,我們仍將努力保持獨特性,不會受到太大影響。我們將能夠繼續專注於我們的核心工作,並從中受益。同時,隨着開源社區的發展,所有的系統,無論是我們自己的還是社區的,都將得到改進和提升。

然而,也存在一種可能性,即模型本身最終可能會成爲產品。在這種情況下,是否選擇開源就需要進行更爲複雜的經濟考量。因爲一旦選擇開源,就相當於在很大程度上將自己的模型商品化。但從我目前所觀察到的情況來看,我們似乎還沒有達到那個階段。

帕特爾:你期待通過向雲提供商授權你的模型來獲得可觀的收入嗎?也就是說,你希望他們支付費用以便在其平台上提供模型服務。

扎克伯格:是的,我們確實期待與雲提供商達成這樣的授權協議,並期望從中獲得可觀的收入。這基本上就是我們爲Llama所設定的許可協議。在多個維度上,我們採取了非常寬容的開源許可策略,爲社區和開發者提供了廣泛的使用權限。但我們對使用它的最大公司設置了限制。這樣的限制設置並非出於阻止他們使用模型的目的,而是希望他們在打算直接利用我們所構建的模型進行轉售並從中獲取商業利益時,能夠與我們進行溝通和協商。如果是像微軟Azure或亞馬遜AWS這樣的雲服務提供商,打算將我們的模型作爲你們的服務的一部分進行轉售,那麼我們期望能夠從中獲得一定的收入分成。

帕特爾:你關於權力平衡的觀點非常合理,我們確實需要思考如何通過更好的技術對齊或其他方法來消除潛在的危害。我希望Meta能夠建立一個明確的框架,就像其他實驗室所做的那樣,明確在某些具體情況下,開源甚至潛在的部署都是不可行的。這樣的框架不僅有助於公司爲潛在的風險做好準備,也能讓人們對此有所期待。

扎克伯格:你說得對,關於存在性風險的問題確實值得我們深入關注。然而,目前我們更關注的是內容風險,即模型可能被用於製造暴力、欺詐或其他傷害他人的行爲。儘管討論存在性風險可能更具吸引力,但實際上,我們目前更需要投入精力去減輕的是這種更常見的危害。對於當前的模型,甚至可能是下一代模型,我們需要確保它們不會被用於欺詐等惡意行爲。作爲一家大公司,Meta有責任確保我們在這方面做得足夠好。當然,我們也有能力同時處理這兩方面的問題。

帕特爾:就開源而言,我感到好奇的是,你認爲PyTorch、React、Open Compute等開源項目對世界的影響,是否有可能超越Meta在社交媒體方面的影響?我曾與這些服務的用戶交流過,他們認爲這種可能性是存在的,畢竟互聯網的大部分運行都依賴於這些開源項目。

扎克伯格:我們的消費產品確實在全球範圍內擁有龐大的用戶基礎,幾乎覆蓋了全世界一半的人口。然而,我認爲開源正成爲一種全新的、強大的構建方式。它可能會像貝爾實驗室一樣,最初他們研發晶體管是爲了實現長途通話,這一目標確實實現了,併爲他們帶來了可觀的利潤。但5到10年後,當人們回顧他們最引以爲傲的發明時,可能會提到其他更有深遠影響的技術。我堅信,我們構建的許多項目,如Reality Labs、某些AI項目以及一些開源項目,都將對人類的進步產生持久而深遠的影響。雖然具體的產品會隨着時間的推移不斷髮展、出現和消失,但它們對人類社會的貢獻卻是持久的。這也是我們作爲技術從業者能夠共同參與的、令人振奮的部分。

帕特爾:關於你們的Llama模型,它何時會在你們自己的定製芯片上進行訓練?

扎克伯格:很快,我們正在努力推動這一進程,但Llama-4可能不是首個在定製芯片上進行訓練的模型。我們的策略是先從處理排名、推薦等類型的推理任務開始,比如Reels、新聞推送廣告等,這些任務之前消耗了大量的GPU資源。一旦我們能夠將這些任務轉移到我們自己的芯片上,我們就能將更昂貴的英偉達GPU用於訓練更復雜的模型。我們期望在不久的將來,能夠使用自己的芯片首先訓練一些相對簡單的模型,並最終拓展到訓練這些龐大的模型。目前,這個項目正在順利進行中,我們有一個清晰且長遠的規劃,正有條不紊地推進。

8、假設成爲Google+的CEO

帕特爾:最後一個問題:如果你被任命爲Google+的CEO,能否帶領它成功?

扎克伯格:Google+?噢,我不知道。

帕特爾:好吧,那麼真正的最後一個問題將是:當谷歌推出Gemini時,你們是否感受到了壓力?

扎克伯格:問題在於,Google+並非沒有CEO,它僅僅是谷歌公司內部的一個部門。在我看來,對於大多數公司,尤其是達到一定規模的企業而言,專注才是至關重要的。初創公司或許在資金上捉襟見肘,它們正在驗證一個想法,可能並未擁有全部所需資源。但隨着業務的發展,企業會跨越某個門檻,開始構建更多的元素,並在這些元素之間創造更多的價值。然而,企業中總會發生一些出乎意料而又令人驚喜的事情,這些都是寶貴的。但總的來說,我認爲公司的能力在很大程度上受限於CEO和管理團隊所能監督和管理的事務範圍。因此,對我們來說,保持主要事務的優先地位,並儘可能專注於關鍵事項,是極爲重要的。正如風投家本·霍洛維茨(Ben Horowitz)所言:“保持主要的事情才是主要的事情”。

編輯/jayden

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論