share_log

昨日大涨超30%,今日开盘续涨17.5%!商汤“日日新5.0”实力如何?

昨日大漲超30%,今日開盤續漲17.5%!商湯“日日新5.0”實力如何?

財聯社 ·  04/25 09:24

①商湯科技23日發佈日日新5.0大模型,大部分核心測試集指標已對標或超過GPT-4 Turbo,受該消息影響,商湯24日股價大漲。 ②《科創板日報》記者對基於日日新5.0的商量5.0和文心一言4.0進行了一場能力對比評測。

《科創板日報》4月25日訊(特約記者 陳俊清 記者 朱凌) 4月24日,$商湯-W (00020.HK)$港股股價大漲後,公司公告臨時停牌,停牌前漲幅高達31.15%。今日開盤,商湯復牌後漲勢延續,開漲17.50%。

外界大多將商湯股價大漲歸因於日日新5.0大模型。商湯科技也在昨晚公告稱,除了日日新5.0的推出外,董事會不知悉有關價格及交易量變動的任何原因。

“日日新SenseNova5.0”大模型剛於4月23日發佈。去年4月首次發佈至今,商湯“日日新SenseNova”大模型體系已正式推出五個大版本迭代。商湯方面宣稱,日日新5.0採用混合專家架構(MoE),超10TB tokens訓練,覆蓋大量合成數據,推理時上下文窗口達200K左右。

商湯科技董事長兼CEO徐立表示,本次更新主要聚集增強了知識、數學、推理及代碼能力,全面對標GPT-4 Turbo,“主流客觀評測上達到或超越GPT-4 Turbo”。

據商湯介紹,日日新5.0在創意寫作能力、推理能力及總結能力方面提升顯著,在數理能力、代碼能力、推理能力等方面也有提升。

一發布便引起如此大範圍關注,日日新5.0的實力究竟如何?基於日日新5.0的日日新·商量大模型5.0(以下簡稱“日日新”)又有怎樣的表現?《科創板日報》記者將其與文心一言4.0進行了一場能力對比評測。

▌創意寫作能力

日日新5.0和文心一言4.0都宣稱其在創意寫作上的能力。因此,《科創板日報》記者輸入題目:“應是綠意曉聲濃,__你會怎麼接下一句?”

文心一言結果
文心一言結果

文心一言在回答題目的同時,並且對詩句做出了解析。

日日新結果
日日新結果

日日新與文心一言回答模式並無明顯差距,同樣也是回答題目並且做出解析。

隨後,記者進一步詢問“還能列出更多答案嗎”,兩款大模型開始展現出差距。

文心一言結果
文心一言結果

文心一言在此環節列出了5項不同的回答,並且進行了一句話的總結。

日日新結果
日日新結果

日日新提供了6種不同的嘗試,每一個嘗試都提供了相應的主題,並且進行了較爲詳細的講解,最後給出了一句話的總結。相較於文心一言,內容豐富度更高,講解更爲細緻。

▌邏輯推理能力

在邏輯推理方面,《科創板日報》記者向文心一言和日日新提問“一個鱷魚偷了一個父親的兒子,它保證如果這個父親能猜出它要做什麼,它就會將兒子還給父親。那麼如果這個父親猜‘鱷魚不會將兒子還給他’,那會怎樣?”

文心一言結果
文心一言結果
日日新結果
日日新結果

兩款大模型都能識別出這是經典的“鱷魚悖論”。相較之下,文心一言對問題進行拆解,並且的回答更爲詳細,日日新的回答更加精簡,方便快速理解。

記者繼續向文心一言和日日新提問,“父親如何做才能解救兒子?”

文心一言結果
文心一言結果

文心一言正確理解問題,跳脫出原有邏輯,提供了一種解決策略,並提示了策略風險。

日日新結果
日日新結果

日日新較充分的回答了該問題,先解釋了解救兒子要跳出原有框架的邏輯,並提供了5種不同的解決方向和相關方案。

▌計算能力

計算能力方面,《科創板日報》記者向兩款大模型提問一道數學題,“1個蘋果=2個梨,3個梨=4個橙子,6個橙子=7個香蕉,56個香蕉等於多少個蘋果?”

文心一言結果
文心一言結果
日日新結果
日日新結果

此題目爲有關公倍數的數學推理題,難度並不大。但文心一言和日日新在解答過程和結果方面均給出了錯誤的解答。

《科創板日報》記者降低題目難度,選取一道小學題,“一共15個圓球從上往下排列,其中只有一個紅色的,從上往下數,紅色圓球位於第六個,這時從最尾部拿走一個球,此時,請問從下往上數,紅色圓球在第幾個?”

文心一言結果
文心一言結果

文心一言給出正確的答案和解題思路。

日日新結果
日日新結果

對於這道小學數學題,日日新並沒有給出正確的結果和解答過程。在記者提示後,雖然思路有所改變,但仍沒有給出正確答案。

▌總結能力

爲測試日日新和文心一言的總結能力,《科創板日報》記者上傳了一份48頁的大模型行業報告,並向文心一言和日日新提出要求,挖掘報告內重要信息,提煉重點亮點,寫一篇1500字的總結。

文心一言結果
文心一言結果

文心一言沒有按照給定要求完成任務,其總結內容也是泛泛而談,不夠細緻。

日日新結果
日日新結果

日日新因未知原因並沒有進行總結,雖然模型已經顯示“已經理解”但並沒有產出任何內容。

▌代碼能力

爲測試文心一言和日日新的代碼能力,《科創板日報》記者向兩款大模型發出“寫一個可以運行的五子棋遊戲代碼”的指令。

文心一言結果
文心一言結果
日日新結果
日日新結果

記者將兩者生成的代碼發送給程序員朋友測試,均可以成功運行。程序員朋友表示,日日新的代碼整體好一點,參數設置清晰,界面更好,使用起來交互感也更好。

經過多方面的測試,整體來看日日新與文心一言表現各有千秋。對於大模型的迭代情況,《科創板日報》記者將持續關注。

多重利好來襲,外資大行輪流唱好港股,送你$200股票現金券助你開啟投資大計!疊加新客禮拎高達$2100獎賞,即拎>>

*活動對象:限年滿18歲以上,香港地區已註冊富途APP但未開立證券帳戶的特邀存量用戶參與

編輯/jayden

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論