share_log

这个访谈回应了所有AI焦点问题!他是AI最重要论文的联合作者

這個訪談回應了所有AI焦點問題!他是AI最重要論文的聯合作者

華爾街見聞 ·  17:17

Aidan Gomez認爲,LLM發展已進入平台期,簡單擴大模型規模帶來的邊際效益正在遞減,而推理能力將成爲未來突破口,並將帶來新的商業模式和市場機遇——從"買更大的算力"變成了"多給AI一點思考時間"。

AI狂飆突進的時代,真的要結束了嗎?

隨着scaling law撞牆新聞爆出,全球科技圈、資本市場關於大模型發展觸及天花板的討論愈演愈烈。那麼,AI發展是否放緩?後續又將如何發展?商業模式如何突破?

針對一系列焦點問題,人工智能領域最具影響力的論文《Attention Is All You Need》的聯合作者,Cohere聯合創始人兼CEO Aidan Gomez在訪談中分享了自己對AI發展的深度見解。

他認爲,LLM發展已進入平台期,而推理能力將成爲未來突破口,並將帶來新的商業模式和市場機遇。同時,他也提醒投資者警惕模型價格傾銷,關注 AGI 發展趨勢。

對於scaling law放緩的問題,Gomez認爲,簡單擴大模型規模帶來的邊際效益正在遞減。以繪畫爲例,Gomez指出 LLM 的發展初期如同用大筆觸快速完成基礎構圖,但隨着模型需要處理更精細的任務,如同繪畫需要越來越細的筆觸來完善細節,模型改進需要的數據也越來越精細,這導致獲取高質量數據的成本越來越高,最終模型的規模化發展將受限於人類知識的邊界和專家數據的獲取難度。

推理能力方面,Gomez表示,推理能力可以讓 LLM 不僅簡單地記憶輸入輸出對,還可以像人類一樣進行多步驟的思考和推理,解決更復雜的問題。而這,這帶來了一個革命性的變化——企業不必再爲提升AI能力投入巨額固定成本,而是可以通過增加推理時間來實現。用通俗的話說,就是從"買更大的算力"變成了"多給AI一點思考時間"。

Gomez還認爲,推理時間計算量的增加還將對芯片層和數據中心建設產生影響,未來需要開發更適合處理推理任務的芯片,以及建設更適合分佈式計算的數據中心。

以下是訪談內容精編:

LLM發展進入平台期,推理能力將成未來突破口

問:LLM 發展是否已經進入平台期?未來的突破口在哪裏?

Gomez:

  • LLM 性能提升已進入平台期,邊際效益遞減。 [2, 6] 簡單地擴大模型規模帶來的性能提升有限,就像油畫創作從大筆觸的構圖階段進入到需要用越來越細的筆觸來完善細節的階段。

  • 模型改進需要越來越精細的數據。 LLM 在處理簡單、常見的任務時可以快速提升,但在處理更專業、敏感的領域(如科學、數學)時,性能提升的難度越來越大,因爲需要更精細、專業的數據來訓練模型。

  • 推理能力將成爲 LLM 未來發展的新突破口。 [3, 5] 推理能力可以讓 LLM 不僅簡單地記憶輸入輸出對,還可以像人類一樣進行多步驟的思考和推理,解決更復雜的問題,例如多項式求解。

問:影響模型規模化發展的因素有哪些?

Gomez:

  • 合成數據可以幫助模型在某些領域(如代碼、數學)提升性能。 因爲這些領域的答案易於驗證,可以通過合成大量數據來訓練模型。

  • 但在其他需要真實世界知識的領域(如生物學、化學),數據的獲取難度更大,需要依賴專家知識。

  • 最終,模型的規模化發展將受限於人類知識的邊界和專家數據的獲取難度。

2. 推理能力將帶來新的商業模式和市場機遇

問:推理能力將如何改變行業格局?

答:

  • 推理能力的出現將帶來新的商業模式。

  • 客戶可以通過增加推理時間計算量來獲得更智能的模型,而無需等待數月進行新的模型訓練。 這意味着客戶可以根據需求靈活地調整模型性能,獲得更好的產品體驗。

  • 這種從資本支出(CAPEX)模式到消費模式的轉變將吸引更多客戶投資於解決問題,而無需承擔高昂的訓練成本和時間成本。

  • 推理時間計算量的增加還將對芯片層和數據中心建設產生影響,未來需要開發更適合處理推理任務的芯片,以及建設更適合分佈式計算的數據中心。

問:如何理解推理能力?

答:

  • 目前的 LLM 缺乏像人類一樣的「內心獨白」,無法進行多步驟的推理思考。 它們只能根據輸入直接給出輸出,而不能像人類一樣在解決問題時進行思考、嘗試、糾錯,最終找到解決方案。

  • 推理能力的加入將使 LLM 可以像人類一樣進行多步驟的思考和推理。 這種能力將通過使用人類數據和合成數據,明確地收集人們的內心想法並進行訓練來實現。

問:什麼類型的問題更適合使用推理能力解決?

答:

  • 任何需要多步驟解決的問題都更適合使用推理能力來解決。 例如,多項式求解,人類在解決這類問題時,需要將其分解成多個步驟,逐步解決,最終得到答案。 而目前的 LLM 只能通過記憶的方式來解決這類問題。

問:市場普遍低估了推理時間計算的哪些方面?

答:

  • 推理時間計算在提供智能方面的作用尚未被市場充分認識。

  • 推理能力的加入爲客戶提供了一種新的選擇:客戶可以通過增加推理時間計算量來獲得更智能的模型。

3. Cohere: 自主研發模型,打造差異化競爭優勢

問:Cohere 爲什麼選擇自主研發模型?

答:

  • 雖然開源模型提供了基礎模型,但微調效果不如自主研發。

  • 自主研發能夠控制數據和訓練過程,爲客戶提供更多定製化選項。

問:LLM 是否適用於所有領域?

答:

  • 雖然 Transformer 模型可以處理很多問題,但在某些領域可能效率較低,例如圖結構數據。

  • 在這些領域,可能需要更專業的模型才能實現更高的效率。

4. 警惕模型價格傾銷,關注 AGI 發展趨勢

問:市場上 LLM 價格下降是否意味着模型商品化?

答:

  • 市場上出現的模型價格下降並非商品化的標誌,而是價格傾銷的結果。

  • 模型構建需要高度的技術能力,只有少數公司掌握核心技術。

  • 未來市場將受到增長壓力和投資回報率的影響,目前以虧損或免費提供昂貴技術的做法是不可持續的。

問:如何看待 AGI 的發展?

答:

  • AGI 並非一個非黑即白的概念,而是一個持續發展的過程,我們已經在構建通用智能機器的道路上取得了很大進展。

  • 超級智能的快速發展和自我提升並不會導致像電影「終結者」中那樣的人類滅絕。

  • 人類將利用人工智能技術創造富足,而不是依賴於一個「上帝」般的超級智能來實現。

編輯/ping

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論