share_log

商汤想要创造“超级时刻”

商湯想要創造“超級時刻”

華爾街見聞 ·  13:24

作者 | 劉寶丹

編輯 | 周智宇

ChatGPT的爆紅讓人們看到了AI大模型的巨大潛力,在經過一年多的技術追趕後,國內大模型公司紛紛押注應用端。

然而,要想做出一款真正有影響力的產品,並不是件容易的事情。

在2024世界人工智能大會上,商湯CEO徐立審慎地指出:“儘管熱潮洶湧,但我們距離那個真正震撼業界的‘超級時刻’尚有距離。”他強調,AI尚未全面滲透至各行各業的骨髓之中,也未能在社會上激起廣泛而深刻的變革漣漪。

正是基於這種清醒的認知,商湯把當前的重點放在了大模型本身的性能上。

7月5日,商湯在“大愛無疆·向新力”人工智能論壇上發佈了“日日新5o”,這是國內首個所見即所得模型,其交互體驗對標GPT-4o。

具體來看,“日日新5o”通過整合跨模態信息,基於聲音、文本、圖像和視頻等多種形式,帶來一種全新的AI交互模式,即實時的流式多模態交互。

對於爲何命名爲5o,商湯研究院研發總監盧樂煒對華爾街見聞表示,這個版本引入了很多現在能媲美 GPT-4o 的最前沿能力,在版本命名上比較保守,V6會有一個更大的計劃,帶來更全面、更基礎的大升級。

創新交互模式

在現場,商湯科技對“日日新5o”的能力進行了演示:

剛開始,工作人員僅是和“日日新5o”打個招呼,它就自動識別出工作人員脖子佩戴的胸卡帶子上的字眼,判斷出現場就是世界人工智能大會會場,並表示在這個地方可以“好好學習”。

接下來,工作人員拿了一隻可愛小狗玩偶,“日日新5o”準確描述了小狗的外貌、表情以及重要穿戴——一個戴着印有商湯科技logo白帽子,很給主場人排面。

再上些難度,隨便翻開一本書的任何一頁,“日日新5o”都能自動介紹,不是簡單的OCR識別文字,而是識別圖文給出好理解的總結,這一切在瞬間即可完成,真正做到實時交互。

工作人員還現場發揮了“畫功”,隨手畫了一隻簡筆畫小兔子,“日日新5o”直呼畫得可愛,而後工作人員又畫了一個微笑表情,它從這個平靜的表情中捕捉到了笑意,工作人員又改了一筆把嘴巴畫大增添了舌頭,“日日新5o”看到後立馬說到這表情開心多了。

“日日新5o”打造的是如同真人聊天一般的交流對話,據商湯介紹,這種交互模式特別適用於實時對話和語音識別等應用,能夠實現對標GPT-4o的交互體驗正是源於“日日新5.5”基礎模型能力的全面提升。

接下來的計劃

今年4月,商湯科技發佈了“日日新5.0”,這是國內首個對標GPT-4 Turbo的國產大模型,引發資本市場的熱潮。

短短兩個多月時間,全新“日日新5.5”體系迎來多項升級,綜合性能較“日日新5.0”平均提升30%,在數學推理、英文能力和指令跟隨等能力明顯增強,交互效果和多項核心指標實現對標GPT-4o。

盧樂煒表示,5.5的發佈從技術預研來說,不是最近幾個月的,它是商湯自上年末在研發原生多模態的一個方法論的集成。“這一塊恰好跟 GPT-4o 的 o 這個 Omni的實際含義是一樣的。我們當時很早就預判了這個趨勢,有一個研發攻關的技術團隊在做這個事。”

“它能在訓練過程中涵蓋多個模態帶給它的知識,然後相互融合,這個對於算法的性能精度提升幫助非常大。”盧樂煒進一步強調,這個原生多模態集成了音頻、視頻,還有最早的圖像,從輸入端encoder到輸出端 decoder 都是完全集成到一個模型裏。

此外,“日日新5.5”採用混合端雲協同專家架構,最大限度發揮雲邊端協同,降低推理成本,模型訓練基於超過10TB tokens高質量訓練數據,包括大量合成的思維鏈數據,提升推理思維能力。

對於接下來的版本計劃,盧樂煒表示,這一版本更新還是相當大的,當時也考慮按常規是一個 V6 的版本號,但我們同時在進行的 V6 版本會有一個更大的計劃,它能承載一個希望更全面的、更基礎的一個大的升級。

“我們先把他保守的宣傳做一個5.5版本的發佈,希望也可以讓大家期待一下,到時候 V6 將會帶來怎樣一個更全面的升級。”

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論