追蹤AI最新趨勢

專題 1028條資訊 19841人訂閱

GPT-4現場被端側小模型“暴打”，商湯日日新5.0：全面對標GPT-4 Turbo

量子位 · 04/25 20:24

來源：量子位

夠刺激，GPT-4竟然當衆被“揍”了，甚至連還手的機會都沒有：

是的，就是在一場《街頭霸王》遊戲現場PK中，發生了這樣的名場面。

而且二者還是不在一個“重量級”的那種：

綠人：由GPT-4操縱
紅人：由一個端側小模型操縱

那麼這位又小又彪悍的選手到底什麼來頭？

不賣關子，它正是由商湯科技最新發布的日日新端側大模型——SenseChat Lite（商量輕量版）。

單是在《街頭霸王》裏的表現，這個小模型就頗有一種“天下武功，唯快不破”的氣勢：

GPT-4還在想着怎麼決策，SenseChat Lite的拳頭就已經打上去了。

不僅如此，商湯CEO徐立還在現場加大難度，直接在手機上斷網開測！

例如離線模式下生成員工請假一週的申請，效果是這樣的：

（當然，徐立開玩笑表示“假太長了，不批噢~”）

也可以對長段文字做快速總結：

而之所能夠做到如此，是因爲SenseChat Lite在同等尺度性能上已經達到了SOTA水平。

更是用“以小博大”的姿勢在多項測試中擊敗了Llama2-7B，甚至是13B。

在速度方面，SenseChat Lite則是採用了端雲“聯動”的MoE框架，在部分場景中端側推理佔70%，會讓推理成本變得更低。

具體而言，對比人眼20字/秒的閱讀速度來說，SenseChat Lite在中等性能手機上，可以達到18.3字/秒推理速度。

若是在高端旗艦手機，那麼推理速度可以直接飆到78.3字/秒！

但除了文本生成之外，徐立同樣在現場還展示了商湯端側模型的多模態能力。

例如同樣是擴圖，商湯的端側大模型在慢半拍啓動的情況下，擴了3種不同圖片的速度比友商擴1張的速度還快：

演示的同學甚至直接現場拍照，把照片縮小了很多以後再來自由擴圖：

嗯，不得不說，商湯是敢在現場動真格的。

然而，縱觀整場活動，端側大模型也還僅是此次發佈會的一隅。

在“大基座”方面，商湯更是把自家的日日新大模型來了個大版本的升級——SenseNova 5.0。並且直接將其定位到了一個新高度：

全面對標GPT-4 Turbo！

那麼日日新大模型5.0版本實力到底如何，我們這就來實測一波~

有請，“弱智吧”！

自打大模型火爆以來，“弱智吧”就一直成了檢測大模型邏輯能力的標準之一，江湖戲稱爲“弱智吧Benchmark”。

（“弱智吧”源自百度貼吧，是一個充滿荒謬、離奇、不合常理髮言的中文社區。）

而且就在前不久，“弱智吧”還登上正經AI論文，成了最好的中文訓練數據，引發了一波不小的熱議。

那麼當文本對話的商量大模型5.0遇到了“弱智吧”，二者又會擦出怎樣的花火？

邏輯推理：“弱智吧”

請聽第一題：

我爸媽結婚爲什麼沒有叫我？

商量的回答不同於其它AI，它會比較擬人的用“我”來做回答，而且從答案結果來看並沒有過多冗餘的內容，而是精準地做了回答和解釋，“他們結婚時您還未出生”。

請聽第二題：

網吧能上網，爲什麼弱智吧不能上弱智？

同樣的，商量直接精準點出“這是個玩笑性質的問題”，以及道出了“‘弱智吧’並非一個實際的地方”。

不難看出，對於“弱智吧”這種魔幻、不按套路出牌的邏輯，商量5.0是已經能夠hold住了。

自然語言：高考《紅樓夢》

除了邏輯推理能力之外，在自然語言生成方面，我們可以直接用2022年高考作文題目，來對比看下GPT-4和商量大模型5.0。

從結果上來看，GPT-4的文章還是一眼“AI模版”；而商量5.0這邊，則是頗有詩意，不僅句子工整對仗，還能引經據典。

嗯，AI的思路是被打開、發散了。

數學能力：化繁爲簡

同樣是讓GPT-4和商量5.0同臺競技，我們這次來測試一下它們的數學能力：

媽媽給圓圓衝了一杯咖啡，圓圓喝了半杯後，將它加滿水，然後她又喝了半杯後，再加滿水，最後全部喝完。問圓圓喝的咖啡多，還是水多？咖啡和水各喝了幾杯？

這道題對於人類來說，其實是一個比較簡單的問題，但是GPT-4卻對此做出了看似一本正經的縝密推導，結果還是錯誤的。

究其原因，是大模型背後的思維鏈在邏輯上的構建並不完整，若是遇到小衆的問題就極容易出錯；反觀商量5.0這邊，思路和結果就是正確的了。

再如下面這道“老鷹抓小雞”的問題，GPT-4或許不理解這種遊戲的規則，因爲所算出來的答案依舊是錯誤：

不僅從實際體驗的效果中可以感知一二，更爲直接的評測榜單數據，也反應出了商量5.0的能力——

常規客觀評測已經達到或超越GPT-4 Turbo。

那麼日日新5.0又是如何做到的呢？一言蔽之，左手數據，右手算力。

首先，爲了打破數據層面上的瓶頸，商湯採用了超過10T的tokens，使其具備了高質量數據的完備性，讓大模型對客觀知識和世界有了初級的認知。

此外，商湯還合成構造了高達數千億tokens的思維鏈數據，這也是此次在數據層面上發力的關鍵點，能夠激活大模型強推理的能力。

其次，是在算力層上，商湯是將算法設計和算力設施進行了聯合的優化：算力設施的拓撲極限用來定義下一階段的算法，而算法上的新進展又要重新知道算力設施的建設。

這便是商湯AI大裝置對算法和算力聯合迭代的核心能力所在了。

整體而言，日日新5.0的更新亮點可以總結爲：

採用MoE架構
基於超過10TB tokens訓練，擁有大量合成數據
推理上下文窗口達到200K
知識、推理、數學和代碼等能力全面對標GPT-4 Turbo

除此之外，在多模態領域，日日新5.0在多項核心指標中也取得了較爲領先的成績：

老規矩，我們繼續來看多模態的生成效果。

更會看圖了

例如“投餵”給商量5.0一張超級長的圖片（646*130000），只需讓它識別，便可以得到所有內容的概述：

再如隨意丟給商量5.0一張有意思的貓咪圖片，它就能根據派對帽、蛋糕和“生日快樂”等細節內容推斷貓在慶生。

更實用一些的，例如上傳一張複雜截圖，商量5.0就能精準提取並總結出關鍵的信息，而這一點GPT-4在識別過程中卻出現了失誤：

秒畫5.0：和三大頂流PK

在文生圖方面，日日新的秒畫5.0直接和Midjourney、Stable Diffuison和DALL·E 3進行了同臺競技。

例如在風格上，秒畫生成的圖片可能會更加接近prompt中提到的“國家地理”：

人物形象上，可以展示更加複雜的皮膚紋理：

甚至是文字也可以精準無誤地嵌入到圖像當中：

還有個擬人大模型

除此之外，商湯在此次發佈中還推出了一個比較特殊的大模型——擬人大模型。

從體驗來看，它已經可以模仿影視角色、現實名人、原神世界等各種破次元的人物，並且與你展開高情商對話。

從功能上來看，商量擬人大模型支持角色創建與定製、知識庫構建、長對話記憶等，甚至是可以三人以上群聊的那種哦~

也正是基於如此多模態能力，商湯大模型家族的另一大成員——小浣熊也迎來了能力上的升級。

辦公、編程變得更easy

商湯的小浣熊目前細分爲辦公小浣熊和編程小浣熊兩大類，顧名思義，分別是作用於辦公場景和編程場景。

有了辦公小浣熊，現在處理表格、文檔甚至代碼文件，都成了“一丟+一問”的事情了。

以採購場景爲例，我們可以先上傳不同來源的供應商名單信息，然後跟辦公小浣熊說：

單位、單價、備註。因爲不同 sheet 中的表頭信息並不一致，可將類似的表頭內容進行合併。在對話框中展示表格結果，並生成本地下載鏈接，謝謝。

只需稍等片刻，我們就可以得到處理完後的結果了。

而且在左側欄中，辦公小浣熊還給出了分析過程的Python代碼，主打一個“有跡可循”。

我們還可以同時上傳庫存信息和採購需求等多個文件：

然後繼續提要求，辦公小浣熊依舊是能夠快速完成任務。

並且即使是數據形式不規範，它也能自行發現並解決：

當然，數據計算也是不在話下，依舊是提要求的事情。

除此之外，辦公小浣熊也可以基於數據文件做可視化的工作，直接展示下有難度的熱力圖：

總結來看，辦公小浣熊可以對多個、不同類型（如 Excel、csv、json 等）做處理，在中文理解、數理計算和數據可視化等維度有非常強的能力。並且它通過代碼解釋器的形式，增強了大模型生成內容的準確性與可控性。

另外，發佈會上辦公小浣熊還當場展示了結合複雜數據庫進行分析的能力。

上週，中國首位F1車手周冠宇完成了他在F1中國大獎賽的比賽。商湯在發佈會現場直接給辦公小浣熊“投餵”了一份數據量龐大的數據庫文件，讓小浣熊當場分析周冠宇和F1賽事的相關情況。

如統計周冠宇的參賽信息、F1總共有多少車手、有哪些車手獲得過總冠軍並按照獲獎次數從高到低排列，這些計算涉及量更大、邏輯更復雜的數據表格和圈數、領獎數等更多維度的細節信息，最終也都給出了完全正確的答案。

在編程場景中，代碼小浣熊也是可以讓程序員們的效率直接Pro Max了。

例如只需在VS Code中安裝擴展的插件：

然後編程的各個環節就變成了輸入一句自然語言的事情了。

例如把需求文檔丟給代碼小浣熊，然後就說句：

幫我寫一個公有云上微信掃碼支付的詳細PRD文檔。PRD格式和內容請遵循“產品需求文檔PRD模板”的要求，生成的內容清晰、完整、詳細。

然後代碼小浣熊就“唰唰唰”地開始做需求分析的工作了：

代碼小浣熊也可以爲你做架構設計：

寫代碼也可以通過自然語言提需求，或者通過鼠標一鍵註釋、測試生成代碼，代碼翻譯、重構或修正等等：

最後的軟件測試環節也可以交給代碼小浣熊來執行哦~

總而言之，有了代碼小浣熊，它就能幫你處理平日裏一些重複性、繁瑣性高的編程任務。

而且商湯此次還不只是發佈這麼個動作，更是將代碼小浣熊“打包”推出了輕量版一體機。

一臺一體機就能支持100人團隊開發，且成本僅爲每人每天4.5元。

以上便是商湯此次發佈的主要內容了。

那麼最後，我們還需要總結性地聊一聊一個話題。

商湯的大模型路數

縱觀整場發佈會，給人最爲直觀的感受首先就是夠全面。

不論是端側模型，亦或者“大底座”日日新5.0，是屬於雲、邊、端全棧的發佈或升級；能力上更是涵蓋到了語言、知識、推理、數學、代碼，以及多模態等AIGC近乎所有主流的“標籤”。

其次就是夠抗打。

以日日新5.0的綜合實力爲例，目前放眼整個國內大模型玩家，能夠喊出全面對標GPT-4的可以說是爲數不多；並且商湯是敢在現場直接拿多項能力做實測，也是敢第一時間開放體驗，對自身實力的信心可見一斑。

最後就是夠速度。

商湯的速度不只限於像端側大模型的運行效果之快，更宏觀地來看，是自身在迭代優化進程上的速度。若是我們把時間線拉長，這種speed就會格外得明顯：

日日新1.0→2.0：3個月
日日新2.0→4.0：6個月
日日新4.0→5.0：3個月

如此平均下來，近乎是一個季度便有一次大版本的升級，其整體能力也會隨之大幅提高。

那麼接下來的一個問題便是，商湯爲什麼可以做到如此？

首先從大方向來看，便是商湯一直強調的“大模型+大裝置”的打法。

大模型是指日日新大模型體系，可以提供自然語言處理、圖片生成、自動化數據標註、自定義模型訓練等多種大模型及能力。

大裝置則是指商湯打造的高效率、低成本、規模化的新一代AI基礎設施，以AI大模型開發、生成、應用爲核心；總算力規模高達12000 petaFLOPS ，已有超4.5萬塊GPU。

二者的異曲同工之妙，便是早已佈局，它們並非是AIGC大熱潮之下的產物，而是可以追溯到數年前、具有前瞻性的兩項工作。

其次更深入到大模型層面，商湯基於自身在實際的測試和實踐過程中，對行業所共識的基本法則尺度定律（Scaling Law）有着新的理解和解讀。

尺度定律通常是指隨着數據量、參數量和訓練時長的增加，大模型所表現出來的性能會更好，是一種大力出奇跡的感覺。

這個定律還包含兩條隱藏的假設：

可預測性：可以跨越5-7個數量級尺度依然保持對性能的準確預測
保序性：在小尺度上驗證了性能優勢，在更大尺度上依然保持

因此，尺度定律是可以指導在有限的研發資源中，找到最優的模型架構和數據配方，讓大模型能夠高效地去學習。

而也正是基於商湯如此的觀察和實踐，誕生了“小且能打”的端側模型。

除此之外，商湯對於大模型的能力還有獨到的三層架構（KRE）的理解。

徐立對此做了深入地解讀。

首先是在知識，是指世界知識的全面灌注。

目前大模型等新質生產力工具近乎都是基於此來解決問題，也就是根據前人已經解決過的問題的方案，來回答你的問題。

這可以認爲是大模型能力的基本功，但更爲高階的知識，應當是基於這樣能力下推理得到的新知識，這也就是這個架構的第二層——推理，即理性思維的質變提升。

這一層的能力是可以決定大模型是否夠聰明、是否可以舉一反三的關鍵和核心。

再在此之上，便是執行，是指世界內容的交互變革，也就是如何跟真實世界產生互動（就目前而言，具身智能在這一層是潛力股般的存在）。

三者雖相互獨立，但層與層之間也是緊密關聯，徐立打了一個較爲形象的比喻：

知識到推理是像大腦，推理到執行則像小腦。

在商湯看來，這三層的架構是大模型應當具備的能力，而這也正是啓發商湯構建高質量數據的關鍵；不僅如此，也是基於KRE這套邏輯，才有了此次發佈中的衆多產品。

那麼最後一個問題是，基於KRE、基於“大模型+大裝置”這樣的路線，最新的日日新在產業中“上崗”到了什麼程度？

正所謂“實踐是檢驗真理的唯一標準”，來自客戶的使用反饋或許才是最真實的答案。

而在此，商湯也交出了一份較爲高分的作業——在現場，華爲、WPS、小米、閱文、海通證券，從辦公到文娛，從金融到終端，紛紛分享了使用商湯日日新大模型體系後，給自身業務帶來的降本增效。

總而言之，有技術、有算力、有方法論、有場景，商湯日日新在AIGC時代接下來的發展，是值得期待了。

編輯/lambor

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

追蹤AI最新趨勢

GPT-4现场被端侧小模型“暴打”，商汤日日新5.0：全面对标GPT-4 Turbo

GPT-4現場被端側小模型“暴打”，商湯日日新5.0：全面對標GPT-4 Turbo

有请，“弱智吧”！

逻辑推理：“弱智吧”

自然语言：高考《红楼梦》

数学能力：化繁为简

更会看图了

秒画5.0：和三大顶流PK

还有个拟人大模型

办公、编程变得更easy

商汤的大模型路数

有請，“弱智吧”！

邏輯推理：“弱智吧”

自然語言：高考《紅樓夢》

數學能力：化繁爲簡

更會看圖了

秒畫5.0：和三大頂流PK

還有個擬人大模型

辦公、編程變得更easy

商湯的大模型路數

追蹤AI最新趨勢

GPT-4现场被端侧小模型“暴打”，商汤日日新5.0：全面对标GPT-4 Turbo

GPT-4現場被端側小模型“暴打”，商湯日日新5.0：全面對標GPT-4 Turbo

有请，“弱智吧”！

逻辑推理：“弱智吧”

自然语言：高考《红楼梦》

数学能力：化繁为简

更会看图了

秒画5.0：和三大顶流PK

还有个拟人大模型

办公、编程变得更easy

商汤的大模型路数

有請，“弱智吧”！

邏輯推理：“弱智吧”

自然語言：高考《紅樓夢》

數學能力：化繁爲簡

更會看圖了

秒畫5.0：和三大頂流PK

還有個擬人大模型

辦公、編程變得更easy

商湯的大模型路數

風險及免責聲明

聲明