share_log

微软CTO:AI大模型的“Scaling Law”还能走多远?

微軟CTO:AI大模型的“Scaling Law”還能走多遠?

華爾街見聞 ·  16:10

本文作者:李笑寅

來源:硬AI

AI時代,大語言模型(Large Language Model,LLM)橫行。

早在2020年,OpenAI就曾在一篇論文中提出一個定律:Scaling law。這個定律指的是大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關,而與模型的具體結構(層數/深度/寬度)基本無關。

此後,OpenAI在AI界風生水起,很多初創公司甚至科技巨頭都將這一定律奉爲圭臬。

隨着AI技術的不斷髮展,越來越多的人開始對Scaling law提出質疑,一種主流的反對觀點是認爲這種訓練邏輯可能會推動大模型淪爲數據的奴僕,而離“人”越來越遠。

在此背景下,7月9日,紅杉資本的Pat Grady和Bill Coughran與微軟CTO(首席技術官)Kevin Scott開展了一場AI主題的對談,就微軟的AI戰略、與OpenAI的合作進度、大模型未來的發展方向等方面進行了探討。

觀看了訪談視頻,本文將Kevin Scott的精彩觀點整理如下:

1、微軟的AI策略是建立一個平台、一個系統,而不是替代性技術。

2、過去20年裏,人工智能領域最重要的進步都與“規模”(尤其是數據規模、算力規模)有關,我們已經將投資重點放在了擴大規模上。

3、Scaling law定律仍適用於當前業態——在擴張大模型的同時,邊際效益並沒有遞減。

4、微軟看中OpenAI的潛力在於,隨着模型的擴展,OpenAI未來有望成爲構建一個平台的基礎。

5、數據的質量比數據的數量更重要,它能爲人工智能訓練算法提供模版,爲未來的合作提供一個經濟框架。

6、獲取有價值的訓練數據進行訓練,然後對模型進行推理,圍繞着二者將出現兩種形態的商業模式,我們正在嘗試AI推薦與廣告相結合的商業模式。

7、下一代大模型即將問世,比之前更便宜、更強大。

以下是訪談的精華內容:

主持人:Kevin Scott,微軟的首席技術官。我們很高興認識凱文已經幾十年了,可以追溯到他在谷歌的時候,當時你和我們的合作伙伴比爾·考特有交集。比爾今天將和我們一起參加一期特別節目,我們希望你今天玩得開心。

Kevin Scott:很高興來到這裏。

主持人:首先,我知道你以前談過這個,但對我們的聽衆來說,他們可能不熟悉你的故事——一個來自弗吉尼亞州農村的孩子如何成爲微軟的CTO?誰會想到呢?

Kevin Scott:我確實覺得這是一個不可複製的經歷。當我回想起我的人生故事時,它只是發生在正確的時間、正確的地點。我現在52歲了,所以當PC革命開始全面爆發時,我正好是10到12歲,我當時就像當你還是個孩子時,試圖弄清楚你在做什麼,你的興趣在哪裏。

一般來說,一個客觀的教訓是:如果你碰巧感興趣,並且非常有動力去學習更多,做更多的事情,同時又發展得非常快,你可能會在合理的地方結束。我對計算機很感興趣,並且是我家的第一個大學生,所以我是第一個獲得學士學位的人。我主修計算機科學,輔修英語文學。所以我會在某個時刻思考,當我試圖決定我拿到本科學位後要去哪裏做什麼。

我一貧如洗,厭倦了一直被抓,所以我選擇了務實的道路。我認爲擁有一個英文文學博士學位很好,但我在兩個學位中選擇了計算機科學,有一段時間我以爲會成爲一名計算機科學教授,我決定去成爲一名編譯、優化和編程語言的人,通過多年的研究生學習,我幾乎一直堅持到最後,我想,我不認爲我想成爲一名教授了。通過六個月的努力寫一篇論文,讓一些合成基準提高3%——我覺得這對我來說不像是在世界上產生很大影響的方式。而且,我不想一直重複這些工作。

所以我在2003年給谷歌投了簡歷,我收到了一個人的電子郵件:克雷格·內布爾·曼寧,他剛剛去紐約開設了谷歌的第一個遠程工程師辦公室。我經歷了一個很棒的面試,我不知道這是有意爲之還只是我運氣好,但是好像每個在谷歌工作的編譯人員都在我的面試名單上,這太神奇了。

這個面試帶來的機會是我最終加入這個創業公司的廣告團隊,當時它還很初期,就在移動設備準備起飛的關鍵時刻。我幫助建立了這家公司移動廣告的基礎設施,然後回到了谷歌本部,此後我幫助領英上市,管理其工程運營團隊,再然後我們被微軟收購。

主持人:你在正確的地點,正確的時間和嘗試,盡你所能了,你在真正成長的事物上做最有趣的事情。現在我們將焦點轉向AI機器學習。

顯然,你在微軟做了很多工作,並參與了與OpenAI和其他公司的合作,你如何看待AI實踐團隊?

Kevin Scott:我認爲如果你是要構建非常複雜的平台AI的話,比如用於訓練和推理的大型分佈式系統,需要網絡、硅這類系統軟件組件,我認爲博士學位非常有幫助。你需要擁有大量的基礎知識才能跳入問題並能夠快速前進,或者說,你一定需要博士學位,但需要足夠聰明,一般來說擁有博士學位的人很聰明。所以,我認爲這是主要起到幫助作用的因素,因爲你已經經歷了一個相當嚴格的訓練計劃,在那裏你將一堆先前的技術塞進你的腦子,可以處理一個非常複雜的項目,並且你有博士學位。

主持人: 看起來有點像AI平台系統項目,然而,當你獲得博士學位時,你通常會在你的特定事物上相對孤立地工作。所以,人們必須學習的一件事就是如何將自己融入一個團隊,並能夠與其他一些人有效地協作。你的建議很有幫助。不過除了構建平台之外,AI還有很多其他事情需要做。比如弄清楚如何將其應用於教育、如何將其應用於醫療保健、如何圍繞此構建開發人員工具等等,

說到這裏,微軟似乎擁有最具影響力和雄心的AI戰略。你能用幾句話來說一下,微軟的AI戰略是什麼嗎?如果你要給自己打分,你在其中表現最好的工作是什麼?哪些工作可能相對沒那麼好?

Kevin Scott:我們實際上一直在談論這個話題。我認爲,微軟是一家平台公司,我們參與或幫助推動了一些大型平台計算浪潮,我們當之無愧的是PC革命中的支柱公司之一,我們在互聯網革命中扮演了重要角色,儘管我認爲那是一個遙遠的角色。

我們考慮的是,如何爲這個特定的技術時代構建一個技術平台,允許其他人在該平台上構建,爲其他人制作有用的東西——這就是我們的AI策略。從前沿模型到小型語言模型,再到高度優化的推理基礎設施,我們在不斷拓展訓練和推理規模,使整個平台更易於訪問,讓每代模型更便宜、更強大。就像其他所有開發者工具一樣,保證安全基礎設施和測試以及一切必要的東西,以便構建穩健的AI應用程序,這樣你就可以填補技術空白。這就是我們的策略,我認爲我們做得很好。

我是一名工程師,我認爲大多數工程師都是短期悲觀主義者,長期樂觀主義者。比如“我不喜歡這些,我有很多事情要解決,我很沮喪,但我仍然要處理所有這些事情,並認爲它們最終都會解決”。所以,有很多事情我認爲我們做得非常好。這點就是絕對的:我們與OpenAI一起,使非常強大的AI被更多人使用。由於我們與OpenAI一起做的工作,我們發現了很多新客戶,否則他們不會構建強大的AI應用程序。所以,我覺得在和OpenAI合作上我們做的很好。我們目前秉持一個理念,雖然未來可能也會改變,就是關於一個AI平台究竟應該是什麼樣子的理念,我們正在努力使它儘可能完整。

我認爲我們實際上喜歡上一些基本的AI已經稱得上有點晚了。所以並不是我們沒有投資AI。你可以看看微軟研究院多年來所做的一些工作(MSR可以說是早期的AI領路人)。

實際上,也許在過去20年裏,人工智能領域最重要的進步都與某種規模有關——通常是數據規模和計算規模的組合,它們可以讓你做一些在較低規模點上不可能做到的事情。在某個時候,數據和算力是指數級的規模,以至於你可以進行零散的賭注。從經濟學角度講,不可能把賭注押在10種不同的事物上,而這些事物同時都在以指數級的速度擴展,或者都有同時以指數級的速度擴展的趨勢。

所以我認爲,還有一件事我們也做的有點晚了,就是我們沒有儘快把所有的雞蛋都放在正確的籃子裏。我們在AI上花了很多錢,但它分散在一堆不同的東西上。因爲我們不想傷害聰明人的感情。不管怎樣,我甚至不知道這些項目最後的城垛是什麼,因爲很多都是在我來微軟之前做的,我們的動作只是沒有像我們說的那樣快,不過目前我們已經將投資重點放在了擴大規模上。

主持人:你是什麼時候開始成爲“規模第一”的信徒的?有一個特定的時間或事件嗎?

Kevin Scott:我曾經在微軟工作了大約七年半,如果當我成爲CTO時,我的工作就像從左到右掃描微軟和整個行業,試着看看哪裏是我們只是在執行方面存在漏洞,大約兩三年後,微軟最大的問題就會是在AI上的進展速度不夠快。所以我會說,2017年中期,我就有對擴大規模的信仰了,這是我工作的重要組成部分,這幫助我們弄清楚戰略是什麼。

在那之後不久,我重組了微軟內部的一大堆東西,讓我們更加專注於AI。大約一年後,我們與OpenAI達成了第一筆交易。是的,我們一直在加快投資,試圖更加專注、更加清晰、更加有目的。

主持人:你最早看中了OpenAI的什麼潛力?

Kevin Scott:我們相信,或者至少我相信,隨着這些模型的擴展,它們將成爲構建一個平台的基礎

你有一個數據池、一堆機器和一個算法,就可以訓練一個模型,但這個模型就像在訓練一個特定的東西。就像我在谷歌做的另一件事,它就像廣告點擊率預測,精準且有效,對嗎?但在此之前,在GPT之前,大部分工作都是關於那些狹窄的用例。就像你在爲狹隘的事情建立模型,而且很難擴展。

如果你想複製這一切,你必須有不同的數據應用方向的博士和AI方向的博士。並且,只要想在應用中構建人工智能時,都要有不同的流程。而當時的情況是,OpenAIO的這些大型語言模型對很多不同的事情都適用,這樣你就不需要爲機器翻譯和情感分析建立單獨的模型了。我當時就想,好吧,這真是非同尋常。

因此,隨着規模的擴大,遷移學習的效果更好。我們知道,大型語言模型可以做加減法,所以當你走到下一個規模點,它們的能力集會變得略微或顯著地更加通用。並且,我們和OpenAI也擁有同樣的信念。他們對這些平台特徵如何隨着時間的推移作爲規模的函數出現進行了非常原則性的分析,並進行了大量的實驗驗證,證明了他們的猜想是對的。

所以,找到一個與你有相同平台信念的合作伙伴,並且有能夠通過這些規模點來執行訓練驗證,這並不像我以前做過的很多事情,我對過去的投資有更多的保留,但對於這次合作有很高的信念,儘管有很多人不同意這個觀點。

主持人:你提到投資,現在有很多行業媒體都在猜測訓練模型的成本,有傳言說要花幾十億、幾百億美元等等。我想,根據我自己的背景,我認爲訓練很快就會被推理取代,否則,我們建造的模型就沒人知道該怎麼用了,對吧?這樣的投資可能並不划算。

所以,你如何看待計算領域的發展?它將走向何方?我想人們會開玩笑說,現在所有的錢都流向了英偉達。

Kevin Scott:英偉達做得很好。就規模擴大的效率而言,目前正在發生的有趣的事情是,每一代硬件的價格性能都更高,其程度通常超過了摩爾定律在通用計算領域的應用。你知道,A100比V100的性價比要好三倍半,H100,雖然不是那麼好,但很接近。從目前的文字描述來看,下一代看起來也非常好。所以出於各種原因,你擁有的硬件在流程技術和架構組成這樣的部分上是可以重複利用的。

所以,你不需要64位的算術運算,而需要的是精度更低的算術運算。這樣一來,並行性就大到令人尷尬的地步了。我們在硬件架構上提取並行性的能力越來越強,網絡方面也有很多創新。就像我們已經過了前沿模型的階段,至少你可以在單個GPU上完成任何有趣的事情。多年來,訓練和推理都是如此。

實際上,自2012年以來,我們就沒有進行過有效的功率縮放,晶體管越來越多,但溫度卻越來越低。我們有很多密度問題,只是我們必須去處理的功率耗散問題。

主持人:此種推論是否驅動着不同的數據中心架構?

Kevin Scott:我們已經以不同的方式構建了我們的訓練環境和推理環境。一直到硅,再到網絡層次結構,你需要不同的東西來進行推理,推理比訓練更容易。我們現在正在通過推理構建需要幾年時間才能構建的大環境。

如果有人提出了更好的硅架構、更好的網絡架構、更好的冷卻技術,就像這是一個更容易運行的實驗,你只需要交換一些機架就可以。我的意思是這比做一個大型資本項目那樣的訓練環境更容易。所以,直覺上,你會認爲這將導致推理環境更加多樣化,競爭更加激烈,迭代速度更快。

在軟件方面,我們看到推理堆棧的情況也是如此,因爲它在整個計算佔用空間中佔了很大一部分,而且由於目前供不應求,它受到了限制。因此,你有很大的動力去優化軟件堆棧,以榨取更多的性能。

主持人:你認爲我們會很快處於一個需求供應平衡發生變化的環境中嗎?不一定是在微軟,但感覺我們也在市場層面上看到了這一點。

Kevin Scott: 建立前沿模型就像是一件非常耗費資源的事情.只要人們喜歡構建前沿模型並使它們易於訪問,就像它們可能不是人們想要的可接受的可訪問方式,你知道,就像只有API可訪問的,就像沒有開源的東西,你可以實例化,你知道,到處亂搞,但是。 就像你已經看到的趨勢。

建立前沿模型是一件非常耗費資源的事情,只要人們喜歡構建前沿模型並致力於讓它們易於訪問,就要花一大筆錢在這方面。如果你現在要開一家公司,前提是你必須建立起自己的前沿模型才行。

打個比方來說,就是我必須去構建自己的智能手機硬件和操作系統,以便交付這個移動應用程序。

我認爲,對市場而言,有意義的事情就是,你會希望看到很多人在做很多模型推理,因爲這意味着你有很多產品已經找到了產品市場契合點,這意味着這些東西正在擴展,但就像大量的投機資金流入基礎設施研發一樣。

在擴展方面,微軟前不久發表了一篇論文,指出訓練數據的質量至少與數量同等重要。我認爲,你現在在業界看到的猜測是,我們正在耗盡高質量培訓數據的來源。你至少讀到過一些文章,聲稱正在建立各種合作關係,以獲取培訓數據,而這些數據可能都在付費牆之後,等等。你認爲這種情況會如何發展?因爲我們感覺計算能力越來越強,但訓練數據卻可能越來越少。

我認爲這幾乎是不可避免的。在我看來,數據的質量比數據的數量更重要,這是一件好事,因爲它能爲人工智能訓練算法提供模版,爲未來的合作提供一個經濟框架。

你知道這將會產生更智能的模型。老實說,這樣就不會浪費大量的計算資源,而去做一些無關緊要的事情。我認爲,從基礎架構的角度來看,人們一直很困惑的一點是,大型語言模型不是數據庫。如果你需要它成爲你的檢索引擎,你不應該把它想成是“嘿,我有了這個東西,就必須把所有東西都裝進去”。

我們認爲事情發展的方式是,你擁有對訓練模型有價值的數據,然後你需要訪問數據或應用程序,以便對模型進行推理。這兩者是兩碼事。我認爲,圍繞這些東西,它們可能是兩種不同的商業模式。

我們現在所有這些數據都在搜索引擎中,不是在隨機權重中,而是非常明確地坐落在索引中,就像在谷歌等待被檢索。你輸入一個查詢,然後你要麼發送流量,要麼進行搜索引擎優化和廣告投放,就像圍繞着這些的一大堆商業模式。

我認爲,我們會爲推薦數據找出一個商業模式,這樣,當代理或人工智能應用需要從某人那裏獲取一些信息時,它就可以推理並給用戶一個答案。我們會爲此找出商業模式。要麼是訂閱,要麼是分享,要麼是授權,要麼是新的廣告模式。前幾天我還在跟別人說,如果我現在還在20多歲,對於你們所有的創業者來說,我們現在就應該有人去搞清楚新廣告單元對代理商來說是什麼,就像剛剛建立的公司一樣,因爲它將與以前的廣告單元具有相同的特點和品質,就像你有信息、產品和服務的人,他們希望得到可能需要這些數據、產品和服務的人的關注。質量很重要,相關性也很重要,還有很多其他的東西。

主持人:說起來,我們經常聽到的一件事是價值函數在某些方面是更廣泛推理能力的瓶頸。 但是當你進入更廣泛的領域時,構建價值函數變得更加困難。這個問題有實際的解決方案嗎?有實際的影響嗎?我想更廣泛的問題是,你認爲推理和元素的整體領域會走向何方?

Kevin Scott:我們只是通過一系列的基準範例來嘗試得出結論。 在過去的幾年中,我們看到的有趣的事情之一就是我們正在非常快速地飽和這些基準,在模型一代中,你會完全或非常接近飽和特定的基準,然後你必須找到其他東西來幫助成爲你的指路明燈。所以,你提到的這個問題實際上是一系列昂貴的實驗,它們只是在你能想象到的最細粒度上昂貴地運行就像教科書一樣,它就像是一個故事的一部分,爲評估地象徵性做貢獻。

主持人:你認爲目前的模型在什麼水平?我認爲,微軟已經推出了一大批合作試點項目,試圖幫助終端用戶使用你的產品等等。另一方面,我看到很多公司都在嘗試建立能夠自主行動的代理。現在,這些模型的預期性能範圍很廣。 你認爲我們在哪裏,在未來幾年內將處於什麼位置?

Kevin Scott:我認爲這是一個非常好的問題。 你知道,甚至有一個哲學觀點認爲每個人的工作都會被AI所取代,之所以給AI“副駕駛”的名號,是因爲我們希望至少鼓勵微軟內部正在構建這些東西的每個人思考:我如何才能幫助那些正在從事某種形式的認知工作的人,讓他們能夠增強他們的認知能力。

所以,我們想建立的是一個系統,而不是替代性技術。好消息是,當你把範圍縮小到一個領域時,也更容易思考如何從粗略的前沿模型能力轉變爲有用的工具。因此,我認爲這是一條合理的部署路徑。我們已經有一些合作試點項目,現在已經有了真正的市場牽引力,很多人都在日常使用。

並且實際上,副駕能做的工作越籠統,就讓它越難取代你自主採取高精度行動,特別是當你知道它在代表你做什麼的時候。一旦它出現一大堆錯誤,用戶的第一反應就是“這行不通”,“我好長一段時間都不會再試了”,這樣的錯誤比比皆是。這意味着你又要針對用例進行優化,而不是超級寬泛的東西。因此,我們更希望在推出之前,它就已經非常好了。

主持人:每個人都以同樣的方式開始玩OpenAI,然後也許他們開始使用一些其他專有的基礎模型,這些模型結合了一些開源模型,也許他們有一些自己的東西。那裏有一個向量數據庫。從架構的角度來看,感覺人們傾向於走一段不完全相同的旅程。但在12或18個月後,我們從他們那裏聽到的是,有一種巨大的八二法則在起作用——你可以非常快速和有效地自動化大部分任務,但最後一英里,最後百分之幾,難以讓你真正信任它。

是的,對於許多任務來說,這似乎是相當難以捉摸的。所以我非常好奇的一件事是,基礎模型本身何時變得足夠好,以消除最後的2%?

Kevin Scott:我認爲,在一段時間內,這兩者都會存在。我知道你們可能會問這個問題,不管別人怎麼看,我們在擴大規模的同時沒有看到邊際收益的遞減,我也一直試着讓大家去理解這點。實際上,我們有一個衡量參數,但每隔幾年才能對進行一次採樣,因爲建造超級計算機和在其上訓練模型都需要一段時間。

下個模型正在路上,我不能告訴你什麼時候,也不能準確預測它會有多好,但它幾乎肯定會更好,可以解決那些你會覺得“哦,我的上帝,這個有點太貴了”或“這太容易崩了”的問題,所有這些都會變得更好,並且變得更便宜、更耐用,讓更復雜的事情成爲可能,在每一代模型更迭中,這樣的故事一直在上演。

我們甚至在微軟內部都在思考這個問題,我們自己的開發人員在開發這些人工智能產品時可能會犯的一個錯誤就是,他們認爲解決我的問題的唯一方法就是,我必須去利用當前的前沿技術,並用一大堆東西來補充它。但你也確實必須這麼做,但在架構上要非常小心,當你這麼做的時候,它並不會阻止你在下一個樣本到來的時候採取下一個樣本。

所以,大家一心想的是架構好這些應用,當新的好東西來臨時,你可以去把它應用上。我認爲這是我們一直在反覆錘鍊的部分。

讓我們內部很頭疼的一件事是,公司內部有一些團隊在看到前沿模型後會說,天哪,我們不可能在這上面部署產品,因爲這很脆弱,而且太貴了。我給大家的建議是,給自己足夠的靈活性,以便在新的前沿出現時,能迅速適應它。這樣你就能保留你的懷疑精神,相信你所相信的領域。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論