①商汤科技23日发布日日新5.0大模型,大部分核心测试集指标已对标或超过GPT-4 Turbo,受该消息影响,商汤24日股价大涨。 ②《科创板日报》记者对基于日日新5.0的商量5.0和文心一言4.0进行了一场能力对比评测。
《科创板日报》4月25日讯(特约记者 陈俊清 记者 朱凌) 4月24日,$商汤-W (00020.HK)$港股股价大涨后,公司公告临时停牌,停牌前涨幅高达31.15%。今日开盘,商汤复牌后涨势延续,开涨17.50%。
外界大多将商汤股价大涨归因于日日新5.0大模型。商汤科技也在昨晚公告称,除了日日新5.0的推出外,董事会不知悉有关价格及交易量变动的任何原因。
“日日新SenseNova5.0”大模型刚于4月23日发布。去年4月首次发布至今,商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。商汤方面宣称,日日新5.0采用混合专家架构(MoE),超10TB tokens训练,覆盖大量合成数据,推理时上下文窗口达200K左右。
商汤科技董事长兼CEO徐立表示,本次更新主要聚集增强了知识、数学、推理及代码能力,全面对标GPT-4 Turbo,“主流客观评测上达到或超越GPT-4 Turbo”。
据商汤介绍,日日新5.0在创意写作能力、推理能力及总结能力方面提升显著,在数理能力、代码能力、推理能力等方面也有提升。
一发布便引起如此大范围关注,日日新5.0的实力究竟如何?基于日日新5.0的日日新·商量大模型5.0(以下简称“日日新”)又有怎样的表现?《科创板日报》记者将其与文心一言4.0进行了一场能力对比评测。
▌创意写作能力
日日新5.0和文心一言4.0都宣称其在创意写作上的能力。因此,《科创板日报》记者输入题目:“应是绿意晓声浓,__你会怎么接下一句?”
文心一言在回答题目的同时,并且对诗句做出了解析。
日日新与文心一言回答模式并无明显差距,同样也是回答题目并且做出解析。
随后,记者进一步询问“还能列出更多答案吗”,两款大模型开始展现出差距。
文心一言在此环节列出了5项不同的回答,并且进行了一句话的总结。
日日新提供了6种不同的尝试,每一个尝试都提供了相应的主题,并且进行了较为详细的讲解,最后给出了一句话的总结。相较于文心一言,内容丰富度更高,讲解更为细致。
▌逻辑推理能力
在逻辑推理方面,《科创板日报》记者向文心一言和日日新提问“一个鳄鱼偷了一个父亲的儿子,它保证如果这个父亲能猜出它要做什么,它就会将儿子还给父亲。那么如果这个父亲猜‘鳄鱼不会将儿子还给他’,那会怎样?”
两款大模型都能识别出这是经典的“鳄鱼悖论”。相较之下,文心一言对问题进行拆解,并且的回答更为详细,日日新的回答更加精简,方便快速理解。
记者继续向文心一言和日日新提问,“父亲如何做才能解救儿子?”
文心一言正确理解问题,跳脱出原有逻辑,提供了一种解决策略,并提示了策略风险。
日日新较充分的回答了该问题,先解释了解救儿子要跳出原有框架的逻辑,并提供了5种不同的解决方向和相关方案。
▌计算能力
计算能力方面,《科创板日报》记者向两款大模型提问一道数学题,“1个苹果=2个梨,3个梨=4个橙子,6个橙子=7个香蕉,56个香蕉等于多少个苹果?”
此题目为有关公倍数的数学推理题,难度并不大。但文心一言和日日新在解答过程和结果方面均给出了错误的解答。
《科创板日报》记者降低题目难度,选取一道小学题,“一共15个圆球从上往下排列,其中只有一个红色的,从上往下数,红色圆球位于第六个,这时从最尾部拿走一个球,此时,请问从下往上数,红色圆球在第几个?”
文心一言给出正确的答案和解题思路。
对于这道小学数学题,日日新并没有给出正确的结果和解答过程。在记者提示后,虽然思路有所改变,但仍没有给出正确答案。
▌总结能力
为测试日日新和文心一言的总结能力,《科创板日报》记者上传了一份48页的大模型行业报告,并向文心一言和日日新提出要求,挖掘报告内重要信息,提炼重点亮点,写一篇1500字的总结。
文心一言没有按照给定要求完成任务,其总结内容也是泛泛而谈,不够细致。
日日新因未知原因并没有进行总结,虽然模型已经显示“已经理解”但并没有产出任何内容。
▌代码能力
为测试文心一言和日日新的代码能力,《科创板日报》记者向两款大模型发出“写一个可以运行的五子棋游戏代码”的指令。
记者将两者生成的代码发送给程序员朋友测试,均可以成功运行。程序员朋友表示,日日新的代码整体好一点,参数设置清晰,界面更好,使用起来交互感也更好。
经过多方面的测试,整体来看日日新与文心一言表现各有千秋。对于大模型的迭代情况,《科创板日报》记者将持续关注。
编辑/jayden
①商湯科技23日發佈日日新5.0大模型,大部分核心測試集指標已對標或超過GPT-4 Turbo,受該消息影響,商湯24日股價大漲。 ②《科創板日報》記者對基於日日新5.0的商量5.0和文心一言4.0進行了一場能力對比評測。
《科創板日報》4月25日訊(特約記者 陳俊清 記者 朱凌) 4月24日,$商湯-W (00020.HK)$港股股價大漲後,公司公告臨時停牌,停牌前漲幅高達31.15%。今日開盤,商湯復牌後漲勢延續,開漲17.50%。
外界大多將商湯股價大漲歸因於日日新5.0大模型。商湯科技也在昨晚公告稱,除了日日新5.0的推出外,董事會不知悉有關價格及交易量變動的任何原因。
“日日新SenseNova5.0”大模型剛於4月23日發佈。去年4月首次發佈至今,商湯“日日新SenseNova”大模型體系已正式推出五個大版本迭代。商湯方面宣稱,日日新5.0採用混合專家架構(MoE),超10TB tokens訓練,覆蓋大量合成數據,推理時上下文窗口達200K左右。
商湯科技董事長兼CEO徐立表示,本次更新主要聚集增強了知識、數學、推理及代碼能力,全面對標GPT-4 Turbo,“主流客觀評測上達到或超越GPT-4 Turbo”。
據商湯介紹,日日新5.0在創意寫作能力、推理能力及總結能力方面提升顯著,在數理能力、代碼能力、推理能力等方面也有提升。
一發布便引起如此大範圍關注,日日新5.0的實力究竟如何?基於日日新5.0的日日新·商量大模型5.0(以下簡稱“日日新”)又有怎樣的表現?《科創板日報》記者將其與文心一言4.0進行了一場能力對比評測。
▌創意寫作能力
日日新5.0和文心一言4.0都宣稱其在創意寫作上的能力。因此,《科創板日報》記者輸入題目:“應是綠意曉聲濃,__你會怎麼接下一句?”
文心一言在回答題目的同時,並且對詩句做出了解析。
日日新與文心一言回答模式並無明顯差距,同樣也是回答題目並且做出解析。
隨後,記者進一步詢問“還能列出更多答案嗎”,兩款大模型開始展現出差距。
文心一言在此環節列出了5項不同的回答,並且進行了一句話的總結。
日日新提供了6種不同的嘗試,每一個嘗試都提供了相應的主題,並且進行了較爲詳細的講解,最後給出了一句話的總結。相較於文心一言,內容豐富度更高,講解更爲細緻。
▌邏輯推理能力
在邏輯推理方面,《科創板日報》記者向文心一言和日日新提問“一個鱷魚偷了一個父親的兒子,它保證如果這個父親能猜出它要做什麼,它就會將兒子還給父親。那麼如果這個父親猜‘鱷魚不會將兒子還給他’,那會怎樣?”
兩款大模型都能識別出這是經典的“鱷魚悖論”。相較之下,文心一言對問題進行拆解,並且的回答更爲詳細,日日新的回答更加精簡,方便快速理解。
記者繼續向文心一言和日日新提問,“父親如何做才能解救兒子?”
文心一言正確理解問題,跳脫出原有邏輯,提供了一種解決策略,並提示了策略風險。
日日新較充分的回答了該問題,先解釋了解救兒子要跳出原有框架的邏輯,並提供了5種不同的解決方向和相關方案。
▌計算能力
計算能力方面,《科創板日報》記者向兩款大模型提問一道數學題,“1個蘋果=2個梨,3個梨=4個橙子,6個橙子=7個香蕉,56個香蕉等於多少個蘋果?”
此題目爲有關公倍數的數學推理題,難度並不大。但文心一言和日日新在解答過程和結果方面均給出了錯誤的解答。
《科創板日報》記者降低題目難度,選取一道小學題,“一共15個圓球從上往下排列,其中只有一個紅色的,從上往下數,紅色圓球位於第六個,這時從最尾部拿走一個球,此時,請問從下往上數,紅色圓球在第幾個?”
文心一言給出正確的答案和解題思路。
對於這道小學數學題,日日新並沒有給出正確的結果和解答過程。在記者提示後,雖然思路有所改變,但仍沒有給出正確答案。
▌總結能力
爲測試日日新和文心一言的總結能力,《科創板日報》記者上傳了一份48頁的大模型行業報告,並向文心一言和日日新提出要求,挖掘報告內重要信息,提煉重點亮點,寫一篇1500字的總結。
文心一言沒有按照給定要求完成任務,其總結內容也是泛泛而談,不夠細緻。
日日新因未知原因並沒有進行總結,雖然模型已經顯示“已經理解”但並沒有產出任何內容。
▌代碼能力
爲測試文心一言和日日新的代碼能力,《科創板日報》記者向兩款大模型發出“寫一個可以運行的五子棋遊戲代碼”的指令。
記者將兩者生成的代碼發送給程序員朋友測試,均可以成功運行。程序員朋友表示,日日新的代碼整體好一點,參數設置清晰,界面更好,使用起來交互感也更好。
經過多方面的測試,整體來看日日新與文心一言表現各有千秋。對於大模型的迭代情況,《科創板日報》記者將持續關注。
多重利好來襲,外資大行輪流唱好港股,送你$200股票現金券助你開啟投資大計!疊加新客禮拎高達$2100獎賞,即拎>>
*活動對象:限年滿18歲以上,香港地區已註冊富途APP但未開立證券帳戶的特邀存量用戶參與
編輯/jayden