share_log

6000亿参数的商汤多模态大模型发布,性能超越GPT-4 Turbo

6000億參數的商湯多模態大模型發佈,性能超越GPT-4 Turbo

鈦媒體 ·  04/24 14:30

來源:鈦媒體

“我們認爲,2024年是端側大模型爆發的一年。”商湯科技董事長兼CEO徐立表示。

商湯正加速升級大模型技術能力。

4月23日下午,人工智能(AI)上市公司商湯科技在上海發佈“日日新SenseNova”5.0多模態大模型系列,採用混合專家(MoE)架構,支持多達10T Tokens中英文與訓練數據,推理合成數據高達數千億Token,推理時上下文窗口可以有效到200K左右,擁有端側擴散和語言模型,知識、推理、數學、代碼等綜合能力全面對標GPT-4 Turbo。

商湯科技表示,這是行業內首個“雲、端、邊”全棧大模型產品矩陣,以滿足不同規模場景的應用需求。公司技術領跑加速生成式AI向產業落地的全面躍遷,實現大模型按需所取。

商湯科技董事長兼CEO徐立表示,在尺度定律(Scaling Law)的準則下,商湯持續推動自身大模型研發,會持續探索大模型能力的KRE三層架構(知識-推理-執行),不斷突破大模型能力邊界。

“我們認爲,2024年是端側大模型爆發的一年。”徐立在會上表示。

商湯科技董事長兼CEO 徐立博士
商湯科技董事長兼CEO 徐立博士

會前與鈦媒體App編輯對話時,商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛表示,端側模型市場潛力巨大,每年有30億部手機,PC出貨量一年也有2-3億臺規模,AI PC 可以成爲我們每個人的助手,汽車智能化也成爲重要發展機遇期,從而能讓大模型普及應用。

“這也是商湯今年的一個戰略重點。”王曉剛強調,“今天我們模型的能力還是歸功於我們的模型參數量、數據量,以及對算力的需求不斷增加下的性能提升。那麼在這個基礎上,未來大模型對於資源的投入、軟硬件基礎設施的要求是越來越高,後面必然導致的一個結果就是,不會有那麼多家去從事大模型,不會形成‘百模’或‘千模大戰’。”

據悉,2023年3月,商湯集團宣佈,公司願景和戰略目標轉型爲“將AGI作爲核心戰略目標,以期在未來幾年內實現AGI技術的重大突破”。

基於此變革,商湯科技建立並執行AI for All的發展目標,並將重點放到以SenseCore Al大裝置作爲大模型生產的核心平台,以及商湯AIDCAI 計算中心平台作爲大算力AI基礎設施能力,從而打造通用能力的多模態大模型,以及垂直行業、更具專長的專業大模型,從根本上降低大模型的下游應用成本和門檻。

去年4月10日,商湯首次公佈“日日新SenseNova”大模型體系,以及自研的中文語言大模型應用平台“商量”,參數量達千億,可實現文本生成、圖像生成、多模態內容生成等能力與場景應用。

2023年7月、8月以及今年1月,日日新大模型升級到2.0、3.0版本以及日日新V4.0,“商量”2.0和小模型商量S版(SenseChat S)等不同參數量級模型版本頁同時發佈,可適配移動端等不同終端及場景的應用需求。新的日日新V4.0通過提高訓練數據的質量以及實現基礎語言能力的顯著提升,在代碼編寫、數據分析、醫療問答等多個場景中達到與GPT-4相匹配的能力,同時還開源對應7B和20B的兩種參數基模型。

今年3月,徐立表示,在Scaling Law指引下,大模型正處於技術革命與性能提升的黃金時期。自2023年發佈以來,商湯“日日新”大模型的能力每隔三個月都會有顯著提升,實現了萬卡萬參的大模型訓練能力,在基模型、多模態、編程和工具調用、百萬字無損上下文、終端小模型上都達到國內領先水平。

最新2023年報顯示,去年基於商湯生成式AI收入達到12億元人民幣,實現200%的飛速增長;同時,商湯大模型基礎設施大裝置SenseCore總算力規模突破性增長至12000 petaFLOPS,運營GPU數量達4.5萬卡,其中國產算力2000P,已完成58款國產芯片適配和應用;另外,生成式 AI 業務中超過70%的客戶在過去12個月內是商湯的新客戶,剩下30%的存量客戶的客單價也錄得約50%的增速,截至3月,訂單金額超過千萬人民幣的客戶數已達到數十家,日日新賦能C端的調用量實現近120倍的增長。

4月23日,商湯技術開放日上,公司正式發佈日日新大模型V5.0,這也是國內首個有能力建立“雲、端、邊”全棧大模型產品矩陣的企業。具體來看,基於此次技術開放日活動,鈦媒體App梳理了商湯核心的四大技術板塊:

1、雲端模型

商湯千億大模型SenseChat(商量)升級到5.0,達到6000億參數,支持MoE大幅提升創意寫作能力、推理能力以及總結能力等,相同的中文知識注入後,可獲得更好的理解總結及問答;同時,數理能力、代碼能力及推理能力達到業內領先水平;多模態能力上,支持高清長圖的解析和理解以及文生圖交互式生成,實現複雜的跨文檔知識抽取及總結問答展示,以及具備豐富的多模態交互能力,其大模型在基準測試MMBench中綜合得分排名首位。

在主流客觀評測上,日日新5.0達到或超越了去年 OpenAI 在開發者大會上發佈的 GPT-4 Turbo 版本,同時也幾乎全方位碾壓了近期發佈的 Llama 3-70B。

徐立表示,在高階推理,特別是數學上的提升,相比GPT-4,日日新提升了100%多,Llama 2、3提升了400%多,也就是大部分用來提升數據質量的能力構建在推理能力上,推進合成數據的推理。

2、端邊模型

隨着大模型技術的快速發展,不同應用場景的需求日益顯現,AI 大模型在智能手機、電腦、VR 眼鏡等終端設備領域的應用也成爲一大趨勢,因此推出1.8B(18億)參數規模的 SenseChat-Lite 版本端側⼤模型。

在基準測試中,該端側模型全面超越了MiniCPM-2B、Phi-2等同量級的大模型,並且還越級比肩一些7B、13B大模型。

徐立稱,這是同等尺度性能最優,跨級尺度全面領先。“端側大模型,天下武功,唯快不破。”

同時,商湯還推出端雲協同解決方案,可以通過智能化判斷協同發揮端雲各自優勢,部分場景端側處理佔比超過80%,從而顯著降低推理成本;目前,商湯日日新·端側大語言模型的推理速度達到業內最快,可在中端平台實現18.3字/s的平均生成速度,旗艦平台更是達到了78.3字/s;而文生圖中,擴散模型端側LDM-AI擴圖技術推理速度小於1.5秒,比友商雲端app快10倍,支持輸出1200萬像素及以上的高清圖片,支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等圖像編輯功能。

王曉剛對鈦媒體AGI表示,商湯在端側模型做的比較好。過去一年裏,公司在雲端給手機、汽車客戶做提供服務時,還針對這些終端用戶需求進行大量改進和開發,整個效果是跟雲端模型是對齊的,體驗上會有一個特別大的優勢。此次通過稀疏模型的激活,可大大節省運算成本,降低端側模型功耗。

3、企業一體機

此次活動上,針對於金融、代碼、醫療、政務等行業的企業級大模型應用需求,商湯正式推出企業級大模型一體機,可同時支持企業級千億模型加速和知識檢索硬件加速,實現本地化部署,即買即用,降低企業應用大模型的門檻。相比行業同類產品,推理成本節約80%,檢索大大加速,CPU工作負載50%。

具體來說,商湯企業級大模型一體機採用“2-42”架構,高密一體機,平台同級性能最強,擁有高速4卡互連,顯存可達256GB,互聯速度可達448GB/s,算力可達2PFLOPS@半精度。

其中,小浣熊·代碼大模型一體機輕量版價格爲每臺35萬元人民幣起。徐立提到,這款產品具有性價比、可用性、安全性、低門檻等優勢。

4、大模型Agents和應用

整體來說,基於通用 AI 基礎設施的SenseCore、“日日新”大模型體系,商湯研發了多個生成式AI產品,如商量、秒畫、如影、格物、瓊宇、大醫以及最新的小浣熊家族系列,均在5.0版本中有更新。

以小浣熊爲例。商湯新的小浣熊系列支持端側,以及不止有代碼小浣熊,還有辦公小浣熊等,支持更多的場景應用;秒畫則全面更新升級,支持更精細的詞語。

徐立表示,現在發佈的類似於代碼小浣熊機器人,可以端到端,至於用自然語言去寫代碼目前來看還不能完全自動,原因是人類的自然語言有天然的奇異性。

另外,商湯還公佈“文生視頻”等領域新的技術突破。

徐立在現場播放了三段完全由商湯大模型生成的視頻,並強調“文生視頻”平台對於人物、動作和場景的可控性,但並沒有正式發佈“文生視頻”產品;而針對數字人,商湯還發布過商湯·擬人語言大模型,讓虛擬人物感受真實。

徐立表示,商湯糰隊希望持續推動整個 AI 產業的變化,特別是 AI 2.0 時代的轉型。

王曉剛對鈦媒體App表示,各個模型之間並不是孤立存在的。商湯多模態模型是以語言模型爲基礎,而文生視頻模型在網絡的架構、數據生產的管線、研發的流程上是大量地借鑑去年商湯文生圖的模型,所以模型之間也是相互關聯的。同時,商湯背後積累大量know-how。

“今天大模型發展最重要的不是數量到底是有幾個模型存下來,最重要的還是在模型的差異化上。所以今天說大戰也好,卷也好,主要體現在我們缺少差異化。所以怎麼來帶來我們的差異化?要有創新,今天這些研發模式還存在着一些問題,比如當我們看到OpenAI發佈一個模型時,知道什麼樣的模型,什麼樣的功能是可以做到的時候,大家就蜂擁而上做類似的東西。對於別人沒有嘗試過,沒有做出來東西,它的不確定性高、有投入風險時,又有很少有人在這方面做投入,所以可以看到商湯在大模型發展的思路上,跟其他很多公司是不一樣的。”王曉剛表示。

王曉剛還向鈦媒體App提到,“絕影”正專注於智能汽車發展,不止有自主權和更大投入,而且會包括商湯基礎能力支持。而對於整個商湯來說,未來發展的重點不是做實體的機器人,而是打造機器人的“大腦”。

“這是我們最擅長且應該發揮價值的地方。”王曉剛表示。

王曉剛強調,AI 大模型是一個長期投入、長期競爭的過程。在這條路上,商湯還是非常堅定會往前繼續走,而且在這基礎之上會與很多合作伙伴、生態一起去支持這些成果和基礎能力。

多重利好來襲,外資大行輪流唱好港股,送你$200股票現金券助你開啟投資大計!疊加新客禮拎高達$2100獎賞,即拎>>

*活動對象:限年滿18歲以上,香港地區已註冊富途APP但未開立證券帳戶的特邀存量用戶參與

活動鏈接:https://j.futunn.com/00e61U

編輯/tolk

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論