聚焦港美股

6000億參數的商湯多模態大模型發佈，性能超越GPT-4 Turbo

鈦媒體 · 04/24 14:30

来源：钛媒体

“我们认为，2024年是端侧大模型爆发的一年。”商汤科技董事长兼CEO徐立表示。

$商汤-W (00020.HK)$正加速升级大模型技术能力。

4月23日下午，人工智能（AI）上市公司商汤科技在上海发布“日日新SenseNova”5.0多模态大模型系列，采用混合专家（MoE）架构，支持多达10T Tokens中英文与训练数据，推理合成数据高达数千亿Token，推理时上下文窗口可以有效到200K左右，拥有端侧扩散和语言模型，知识、推理、数学、代码等综合能力全面对标GPT-4 Turbo。

商汤科技表示，这是行业内首个“云、端、边”全栈大模型产品矩阵，以满足不同规模场景的应用需求。公司技术领跑加速生成式AI向产业落地的全面跃迁，实现大模型按需所取。

商汤科技董事长兼CEO徐立表示，在尺度定律（Scaling Law）的准则下，商汤持续推动自身大模型研发，会持续探索大模型能力的KRE三层架构（知识-推理-执行），不断突破大模型能力边界。

“我们认为，2024年是端侧大模型爆发的一年。”徐立在会上表示。

会前与钛媒体App编辑对话时，商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示，端侧模型市场潜力巨大，每年有30亿部手机，PC出货量一年也有2-3亿台规模，AI PC 可以成为我们每个人的助手，汽车智能化也成为重要发展机遇期，从而能让大模型普及应用。

“这也是商汤今年的一个战略重点。”王晓刚强调，“今天我们模型的能力还是归功于我们的模型参数量、数据量，以及对算力的需求不断增加下的性能提升。那么在这个基础上，未来大模型对于资源的投入、软硬件基础设施的要求是越来越高，后面必然导致的一个结果就是，不会有那么多家去从事大模型，不会形成‘百模’或‘千模大战’。”

据悉，2023年3月，商汤集团宣布，公司愿景和战略目标转型为“将AGI作为核心战略目标，以期在未来几年内实现AGI技术的重大突破”。

基于此变革，商汤科技建立并执行AI for All的发展目标，并将重点放到以SenseCore Al大装置作为大模型生产的核心平台，以及商汤AIDCAI 计算中心平台作为大算力AI基础设施能力，从而打造通用能力的多模态大模型，以及垂直行业、更具专长的专业大模型，从根本上降低大模型的下游应用成本和门槛。

去年4月10日，商汤首次公布“日日新SenseNova”大模型体系，以及自研的中文语言大模型应用平台“商量”，参数量达千亿，可实现文本生成、图像生成、多模态内容生成等能力与场景应用。

2023年7月、8月以及今年1月，日日新大模型升级到2.0、3.0版本以及日日新V4.0，“商量”2.0和小模型商量S版（SenseChat S）等不同参数量级模型版本页同时发布，可适配移动端等不同终端及场景的应用需求。新的日日新V4.0通过提高训练数据的质量以及实现基础语言能力的显著提升，在代码编写、数据分析、医疗问答等多个场景中达到与GPT-4相匹配的能力，同时还开源对应7B和20B的两种参数基模型。

今年3月，徐立表示，在Scaling Law指引下，大模型正处于技术革命与性能提升的黄金时期。自2023年发布以来，商汤“日日新”大模型的能力每隔三个月都会有显著提升，实现了万卡万参的大模型训练能力，在基模型、多模态、编程和工具调用、百万字无损上下文、终端小模型上都达到国内领先水平。

最新2023年报显示，去年基于商汤生成式AI收入达到12亿元人民币，实现200%的飞速增长；同时，商汤大模型基础设施大装置SenseCore总算力规模突破性增长至12000 petaFLOPS，运营GPU数量达4.5万卡，其中国产算力2000P，已完成58款国产芯片适配和应用；另外，生成式 AI 业务中超过70%的客户在过去12个月内是商汤的新客户，剩下30%的存量客户的客单价也录得约50%的增速，截至3月，订单金额超过千万人民币的客户数已达到数十家，日日新赋能C端的调用量实现近120倍的增长。

4月23日，商汤技术开放日上，公司正式发布日日新大模型V5.0，这也是国内首个有能力建立“云、端、边”全栈大模型产品矩阵的企业。具体来看，基于此次技术开放日活动，钛媒体App梳理了商汤核心的四大技术板块：

1、云端模型

商汤千亿大模型SenseChat（商量）升级到5.0，达到6000亿参数，支持MoE大幅提升创意写作能力、推理能力以及总结能力等，相同的中文知识注入后，可获得更好的理解总结及问答；同时，数理能力、代码能力及推理能力达到业内领先水平；多模态能力上，支持高清长图的解析和理解以及文生图交互式生成，实现复杂的跨文档知识抽取及总结问答展示，以及具备丰富的多模态交互能力，其大模型在基准测试MMBench中综合得分排名首位。

在主流客观评测上，日日新5.0达到或超越了去年 OpenAI 在开发者大会上发布的 GPT-4 Turbo 版本，同时也几乎全方位碾压了近期发布的 Llama 3-70B。

徐立表示，在高阶推理，特别是数学上的提升，相比GPT-4，日日新提升了100%多，Llama 2、3提升了400%多，也就是大部分用来提升数据质量的能力构建在推理能力上，推进合成数据的推理。

2、端边模型

随着大模型技术的快速发展，不同应用场景的需求日益显现，AI 大模型在智能手机、电脑、VR 眼镜等终端设备领域的应用也成为一大趋势，因此推出1.8B（18亿）参数规模的 SenseChat-Lite 版本端侧⼤模型。

在基准测试中，该端侧模型全面超越了MiniCPM-2B、Phi-2等同量级的大模型，并且还越级比肩一些7B、13B大模型。

徐立称，这是同等尺度性能最优，跨级尺度全面领先。“端侧大模型，天下武功，唯快不破。”

同时，商汤还推出端云协同解决方案，可以通过智能化判断协同发挥端云各自优势，部分场景端侧处理占比超过80%，从而显著降低推理成本；目前，商汤日日新·端侧大语言模型的推理速度达到业内最快，可在中端平台实现18.3字/s的平均生成速度，旗舰平台更是达到了78.3字/s；而文生图中，扩散模型端侧LDM-AI扩图技术推理速度小于1.5秒，比友商云端app快10倍，支持输出1200万像素及以上的高清图片，支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。

王晓刚对钛媒体AGI表示，商汤在端侧模型做的比较好。过去一年里，公司在云端给手机、汽车客户做提供服务时，还针对这些终端用户需求进行大量改进和开发，整个效果是跟云端模型是对齐的，体验上会有一个特别大的优势。此次通过稀疏模型的激活，可大大节省运算成本，降低端侧模型功耗。

3、企业一体机

此次活动上，针对于金融、代码、医疗、政务等行业的企业级大模型应用需求，商汤正式推出企业级大模型一体机，可同时支持企业级千亿模型加速和知识检索硬件加速，实现本地化部署，即买即用，降低企业应用大模型的门槛。相比行业同类产品，推理成本节约80%，检索大大加速，CPU工作负载50%。

具体来说，商汤企业级大模型一体机采用“2-42”架构，高密一体机，平台同级性能最强，拥有高速4卡互连，显存可达256GB，互联速度可达448GB/s，算力可达2PFLOPS@半精度。

其中，小浣熊·代码大模型一体机轻量版价格为每台35万元人民币起。徐立提到，这款产品具有性价比、可用性、安全性、低门槛等优势。

4、大模型Agents和应用

整体来说，基于通用 AI 基础设施的SenseCore、“日日新”大模型体系，商汤研发了多个生成式AI产品，如商量、秒画、如影、格物、琼宇、大医以及最新的小浣熊家族系列，均在5.0版本中有更新。

以小浣熊为例。商汤新的小浣熊系列支持端侧，以及不止有代码小浣熊，还有办公小浣熊等，支持更多的场景应用；秒画则全面更新升级，支持更精细的词语。

徐立表示，现在发布的类似于代码小浣熊机器人，可以端到端，至于用自然语言去写代码目前来看还不能完全自动，原因是人类的自然语言有天然的奇异性。

另外，商汤还公布“文生视频”等领域新的技术突破。

徐立在现场播放了三段完全由商汤大模型生成的视频，并强调“文生视频”平台对于人物、动作和场景的可控性，但并没有正式发布“文生视频”产品；而针对数字人，商汤还发布过商汤·拟人语言大模型，让虚拟人物感受真实。

徐立表示，商汤团队希望持续推动整个 AI 产业的变化，特别是 AI 2.0 时代的转型。

王晓刚对钛媒体App表示，各个模型之间并不是孤立存在的。商汤多模态模型是以语言模型为基础，而文生视频模型在网络的架构、数据生产的管线、研发的流程上是大量地借鉴去年商汤文生图的模型，所以模型之间也是相互关联的。同时，商汤背后积累大量know-how。

“今天大模型发展最重要的不是数量到底是有几个模型存下来，最重要的还是在模型的差异化上。所以今天说大战也好，卷也好，主要体现在我们缺少差异化。所以怎么来带来我们的差异化？要有创新，今天这些研发模式还存在着一些问题，比如当我们看到OpenAI发布一个模型时，知道什么样的模型，什么样的功能是可以做到的时候，大家就蜂拥而上做类似的东西。对于别人没有尝试过，没有做出来东西，它的不确定性高、有投入风险时，又有很少有人在这方面做投入，所以可以看到商汤在大模型发展的思路上，跟其他很多公司是不一样的。”王晓刚表示。

王晓刚还向钛媒体App提到，“绝影”正专注于智能汽车发展，不止有自主权和更大投入，而且会包括商汤基础能力支持。而对于整个商汤来说，未来发展的重点不是做实体的机器人，而是打造机器人的“大脑”。

“这是我们最擅长且应该发挥价值的地方。”王晓刚表示。

王晓刚强调，AI 大模型是一个长期投入、长期竞争的过程。在这条路上，商汤还是非常坚定会往前继续走，而且在这基础之上会与很多合作伙伴、生态一起去支持这些成果和基础能力。

编辑/tolk

來源：鈦媒體

“我們認爲，2024年是端側大模型爆發的一年。”商湯科技董事長兼CEO徐立表示。

商湯正加速升級大模型技術能力。

4月23日下午，人工智能（AI）上市公司商湯科技在上海發佈“日日新SenseNova”5.0多模態大模型系列，採用混合專家（MoE）架構，支持多達10T Tokens中英文與訓練數據，推理合成數據高達數千億Token，推理時上下文窗口可以有效到200K左右，擁有端側擴散和語言模型，知識、推理、數學、代碼等綜合能力全面對標GPT-4 Turbo。

商湯科技表示，這是行業內首個“雲、端、邊”全棧大模型產品矩陣，以滿足不同規模場景的應用需求。公司技術領跑加速生成式AI向產業落地的全面躍遷，實現大模型按需所取。

商湯科技董事長兼CEO徐立表示，在尺度定律（Scaling Law）的準則下，商湯持續推動自身大模型研發，會持續探索大模型能力的KRE三層架構（知識-推理-執行），不斷突破大模型能力邊界。

“我們認爲，2024年是端側大模型爆發的一年。”徐立在會上表示。

會前與鈦媒體App編輯對話時，商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛表示，端側模型市場潛力巨大，每年有30億部手機，PC出貨量一年也有2-3億臺規模，AI PC 可以成爲我們每個人的助手，汽車智能化也成爲重要發展機遇期，從而能讓大模型普及應用。

“這也是商湯今年的一個戰略重點。”王曉剛強調，“今天我們模型的能力還是歸功於我們的模型參數量、數據量，以及對算力的需求不斷增加下的性能提升。那麼在這個基礎上，未來大模型對於資源的投入、軟硬件基礎設施的要求是越來越高，後面必然導致的一個結果就是，不會有那麼多家去從事大模型，不會形成‘百模’或‘千模大戰’。”

據悉，2023年3月，商湯集團宣佈，公司願景和戰略目標轉型爲“將AGI作爲核心戰略目標，以期在未來幾年內實現AGI技術的重大突破”。

基於此變革，商湯科技建立並執行AI for All的發展目標，並將重點放到以SenseCore Al大裝置作爲大模型生產的核心平台，以及商湯AIDCAI 計算中心平台作爲大算力AI基礎設施能力，從而打造通用能力的多模態大模型，以及垂直行業、更具專長的專業大模型，從根本上降低大模型的下游應用成本和門檻。

去年4月10日，商湯首次公佈“日日新SenseNova”大模型體系，以及自研的中文語言大模型應用平台“商量”，參數量達千億，可實現文本生成、圖像生成、多模態內容生成等能力與場景應用。

2023年7月、8月以及今年1月，日日新大模型升級到2.0、3.0版本以及日日新V4.0，“商量”2.0和小模型商量S版（SenseChat S）等不同參數量級模型版本頁同時發佈，可適配移動端等不同終端及場景的應用需求。新的日日新V4.0通過提高訓練數據的質量以及實現基礎語言能力的顯著提升，在代碼編寫、數據分析、醫療問答等多個場景中達到與GPT-4相匹配的能力，同時還開源對應7B和20B的兩種參數基模型。

今年3月，徐立表示，在Scaling Law指引下，大模型正處於技術革命與性能提升的黃金時期。自2023年發佈以來，商湯“日日新”大模型的能力每隔三個月都會有顯著提升，實現了萬卡萬參的大模型訓練能力，在基模型、多模態、編程和工具調用、百萬字無損上下文、終端小模型上都達到國內領先水平。

最新2023年報顯示，去年基於商湯生成式AI收入達到12億元人民幣，實現200%的飛速增長；同時，商湯大模型基礎設施大裝置SenseCore總算力規模突破性增長至12000 petaFLOPS，運營GPU數量達4.5萬卡，其中國產算力2000P，已完成58款國產芯片適配和應用；另外，生成式 AI 業務中超過70%的客戶在過去12個月內是商湯的新客戶，剩下30%的存量客戶的客單價也錄得約50%的增速，截至3月，訂單金額超過千萬人民幣的客戶數已達到數十家，日日新賦能C端的調用量實現近120倍的增長。

4月23日，商湯技術開放日上，公司正式發佈日日新大模型V5.0，這也是國內首個有能力建立“雲、端、邊”全棧大模型產品矩陣的企業。具體來看，基於此次技術開放日活動，鈦媒體App梳理了商湯核心的四大技術板塊：

1、雲端模型

商湯千億大模型SenseChat（商量）升級到5.0，達到6000億參數，支持MoE大幅提升創意寫作能力、推理能力以及總結能力等，相同的中文知識注入後，可獲得更好的理解總結及問答；同時，數理能力、代碼能力及推理能力達到業內領先水平；多模態能力上，支持高清長圖的解析和理解以及文生圖交互式生成，實現複雜的跨文檔知識抽取及總結問答展示，以及具備豐富的多模態交互能力，其大模型在基準測試MMBench中綜合得分排名首位。

在主流客觀評測上，日日新5.0達到或超越了去年 OpenAI 在開發者大會上發佈的 GPT-4 Turbo 版本，同時也幾乎全方位碾壓了近期發佈的 Llama 3-70B。

徐立表示，在高階推理，特別是數學上的提升，相比GPT-4，日日新提升了100%多，Llama 2、3提升了400%多，也就是大部分用來提升數據質量的能力構建在推理能力上，推進合成數據的推理。

2、端邊模型

隨着大模型技術的快速發展，不同應用場景的需求日益顯現，AI 大模型在智能手機、電腦、VR 眼鏡等終端設備領域的應用也成爲一大趨勢，因此推出1.8B（18億）參數規模的 SenseChat-Lite 版本端側⼤模型。

在基準測試中，該端側模型全面超越了MiniCPM-2B、Phi-2等同量級的大模型，並且還越級比肩一些7B、13B大模型。

徐立稱，這是同等尺度性能最優，跨級尺度全面領先。“端側大模型，天下武功，唯快不破。”

同時，商湯還推出端雲協同解決方案，可以通過智能化判斷協同發揮端雲各自優勢，部分場景端側處理佔比超過80%，從而顯著降低推理成本；目前，商湯日日新·端側大語言模型的推理速度達到業內最快，可在中端平台實現18.3字/s的平均生成速度，旗艦平台更是達到了78.3字/s；而文生圖中，擴散模型端側LDM-AI擴圖技術推理速度小於1.5秒，比友商雲端app快10倍，支持輸出1200萬像素及以上的高清圖片，支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等圖像編輯功能。

王曉剛對鈦媒體AGI表示，商湯在端側模型做的比較好。過去一年裏，公司在雲端給手機、汽車客戶做提供服務時，還針對這些終端用戶需求進行大量改進和開發，整個效果是跟雲端模型是對齊的，體驗上會有一個特別大的優勢。此次通過稀疏模型的激活，可大大節省運算成本，降低端側模型功耗。

3、企業一體機

此次活動上，針對於金融、代碼、醫療、政務等行業的企業級大模型應用需求，商湯正式推出企業級大模型一體機，可同時支持企業級千億模型加速和知識檢索硬件加速，實現本地化部署，即買即用，降低企業應用大模型的門檻。相比行業同類產品，推理成本節約80%，檢索大大加速，CPU工作負載50%。

具體來說，商湯企業級大模型一體機採用“2-42”架構，高密一體機，平台同級性能最強，擁有高速4卡互連，顯存可達256GB，互聯速度可達448GB/s，算力可達2PFLOPS@半精度。

其中，小浣熊·代碼大模型一體機輕量版價格爲每臺35萬元人民幣起。徐立提到，這款產品具有性價比、可用性、安全性、低門檻等優勢。

4、大模型Agents和應用

整體來說，基於通用 AI 基礎設施的SenseCore、“日日新”大模型體系，商湯研發了多個生成式AI產品，如商量、秒畫、如影、格物、瓊宇、大醫以及最新的小浣熊家族系列，均在5.0版本中有更新。

以小浣熊爲例。商湯新的小浣熊系列支持端側，以及不止有代碼小浣熊，還有辦公小浣熊等，支持更多的場景應用；秒畫則全面更新升級，支持更精細的詞語。

徐立表示，現在發佈的類似於代碼小浣熊機器人，可以端到端，至於用自然語言去寫代碼目前來看還不能完全自動，原因是人類的自然語言有天然的奇異性。

另外，商湯還公佈“文生視頻”等領域新的技術突破。

徐立在現場播放了三段完全由商湯大模型生成的視頻，並強調“文生視頻”平台對於人物、動作和場景的可控性，但並沒有正式發佈“文生視頻”產品；而針對數字人，商湯還發布過商湯·擬人語言大模型，讓虛擬人物感受真實。

徐立表示，商湯糰隊希望持續推動整個 AI 產業的變化，特別是 AI 2.0 時代的轉型。

王曉剛對鈦媒體App表示，各個模型之間並不是孤立存在的。商湯多模態模型是以語言模型爲基礎，而文生視頻模型在網絡的架構、數據生產的管線、研發的流程上是大量地借鑑去年商湯文生圖的模型，所以模型之間也是相互關聯的。同時，商湯背後積累大量know-how。

“今天大模型發展最重要的不是數量到底是有幾個模型存下來，最重要的還是在模型的差異化上。所以今天說大戰也好，卷也好，主要體現在我們缺少差異化。所以怎麼來帶來我們的差異化？要有創新，今天這些研發模式還存在着一些問題，比如當我們看到OpenAI發佈一個模型時，知道什麼樣的模型，什麼樣的功能是可以做到的時候，大家就蜂擁而上做類似的東西。對於別人沒有嘗試過，沒有做出來東西，它的不確定性高、有投入風險時，又有很少有人在這方面做投入，所以可以看到商湯在大模型發展的思路上，跟其他很多公司是不一樣的。”王曉剛表示。

王曉剛還向鈦媒體App提到，“絕影”正專注於智能汽車發展，不止有自主權和更大投入，而且會包括商湯基礎能力支持。而對於整個商湯來說，未來發展的重點不是做實體的機器人，而是打造機器人的“大腦”。

“這是我們最擅長且應該發揮價值的地方。”王曉剛表示。

王曉剛強調，AI 大模型是一個長期投入、長期競爭的過程。在這條路上，商湯還是非常堅定會往前繼續走，而且在這基礎之上會與很多合作伙伴、生態一起去支持這些成果和基礎能力。

多重利好來襲，外資大行輪流唱好港股，送你$200股票現金券助你開啟投資大計！疊加新客禮拎高達$2100獎賞，即拎>>

*活動對象：限年滿18歲以上，香港地區已註冊富途APP但未開立證券帳戶的特邀存量用戶參與

活動鏈接：https://j.futunn.com/00e61U

編輯/tolk

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

聚焦港美股

6000亿参数的商汤多模态大模型发布，性能超越GPT-4 Turbo

6000億參數的商湯多模態大模型發佈，性能超越GPT-4 Turbo

風險及免責聲明

聲明