追蹤AI最新趨勢

專題 715條資訊 13196人訂閱

大模型新王誕生！Claude 3首次超越GPT4

華爾街見聞 · 03/28 18:25

來源：硬AI 作者：卜淑情

Claude 3超大杯Opus登頂榜首，大杯Sonnet和小杯Haiku分別獲得第四和第六的好成績，Haiku水平已達到GPT-4級別。

一覺醒來，大模型世界迎來了“新王登基”！

當地時間週三，聊天機器人競技場Chatbot Arena更新對戰排行榜，Claude 3反超GPT-4，一舉摘得“最強王者”桂冠。

這次登頂榜首的是Claude 3系列的超大杯Opus，它以2分Elo的微弱優勢，險勝GPT-4-1106-preview模型，GPT-4-0125-preview位列第三。

而且，不僅僅是超大杯Opus，Claude 3家族其他兩個成員大杯Sonnet和小杯Haiku都殺進了TOP10，分別獲得了第四和第六的好成績。

小杯Haiku達到GPT-4級別

尤其是小杯Haiku，被官方單獨拉出來表揚。

“Haiku給所有人留下了深刻的印象，根據我們的用戶偏好，Claude 3 Haiku已經達到了GPT-4級別！”運行Chatbot Arena的LMSYS平台發帖大讚，“它的速度、功能和上下文長度目前在市場上是獨一份的。”

更難等可貴的是，Haiku參數規模遠遠小於Opus以及任何的GPT-4模型，而且它的價格是Opus的1/60，響應速度卻是它的10倍。

GPT-4自去年5月被納入Chatbot Arena榜單以來一直牢牢霸佔榜首，但現在，Claude 3憑藉其出色表現，尤其是其在高級任務處理上的能力，成功顛覆了這一格局。

“這是史上第一次，面向高級任務的第一模型Opus和麪向成本效率的Haiku均出自非OpenAI的供應商，”獨立AI研究員Simon Willison在接受媒體採訪時表示，“這非常讓人欣慰——在這個領域，頂尖供應商的多樣性對大家都有好處。”

“向新國王下跪！”

吃瓜網友也紛紛對Claude 3豎起大拇指。

“印象深刻，Very nice!”

還有人建議蘋果將Claude設置爲默認AI工具。

更有人直呼：“舊王已死。安息吧，GPT-4。”

“向新國王下跪！”

相比之下，網友對GPT-4的感情更加複雜。

“GPT-4變得非常蹩腳。”

最近幾個月，有關GPT-4變懶的話題在網上鬧得沸沸洋洋。

據稱，GPT在高峰時段使用時，響應會變得非常緩慢且敷衍，甚至還會拒絕回應，單方面中斷對話。

比如，它在進行編程工作時會習慣性地跳過部分代碼，還出現了讓人類自己寫代碼的名場面。

評分準確嗎？

在一陣讚揚Claude 3的聲音中，也夾雜着質疑的聲音。

那麼，Chatbot Arena究竟是如何給這些大模型打分的？

Chatbot Arena由伯克利大學主導團隊的LMSYS開發。平台採用匿名、隨機的方式讓不同的大模型“打擂臺”，並讓人類用戶擔任裁判，最後根據大模型所得的積分進行排名。

具體來說，系統每次會隨機選擇兩個不同的大模型和用戶匿名聊天，讓用戶決定哪款大模型的表現更好一些，系統會根據用戶的選擇對大模型進行打分，然後將分數彙總整理形成最終的積分，最後以排行榜的形式呈現。

自推出以來，已有超過40萬名用戶成爲Chatbot Arena的裁判。新一輪排名又吸引了7萬名用戶加入。

在本次激烈的“擂臺賽”中，Claude 3通過成千上萬次的對戰，在GPT-4、Gemini等一衆強勁對手中殺出重圍，成爲新的大模型之王。

值得一提的是，在評價一個大模型的好壞時，用戶的“感覺”也就是體驗感至關重要。

“所謂的參數標準無法真正評價大模型的價值，”AI軟件開發者Anton Bacaj此前發貼說，“我剛和Claude 3 Opus進行了一場長時間的編碼會話，真的是遠超GPT-4。”

Claude 3的進化可能會令OpenAI感到一絲不安，一些用戶已經開始在工作中“叛變”，放棄ChatGPT，轉而使用Claude 3。

“自從有了Claude 3 Opus，我再也沒有用過ChatGPT。”

軟件開發者Pietro Schirano在X平台寫道：“老實說，Claude 3 > GPT-4最令人震驚的事情之一，就是切換太容易了。”

但也有人指出，Chatbot Arena並沒有考慮到添加工具後的表現，這恰恰是GPT-4的強項。

另外，Claude 3 Opus和GPT-4之間的分數非常接近，而且GPT-4已經問世一年了，預計今年某個時候會出現更強大的 GPT-4.5或GPT-5。

毋庸置疑，到那時這兩大模型之間的PK將會更加激烈。

編輯/lambor

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

追蹤AI最新趨勢

大模型新王诞生！Claude 3首次超越GPT4

大模型新王誕生！Claude 3首次超越GPT4

小杯Haiku达到GPT-4级别

“向新国王下跪！”

评分准确吗？

小杯Haiku達到GPT-4級別

“向新國王下跪！”

評分準確嗎？

追蹤AI最新趨勢

大模型新王诞生！Claude 3首次超越GPT4

大模型新王誕生！Claude 3首次超越GPT4

小杯Haiku达到GPT-4级别

“向新国王下跪！”

评分准确吗？

小杯Haiku達到GPT-4級別

“向新國王下跪！”

評分準確嗎？

風險及免責聲明

聲明