share_log

商汤-W(0020.HK):商汤发布流式多模态交互大模型「日日新5.5」 国内首次对标GPT-4O

商湯-W(0020.HK):商湯發佈流式多模態交互大模型「日日新5.5」 國內首次對標GPT-4O

海通證券 ·  2024/07/13 11:00

流式多模態交互大模型「日日新5.5」發佈,國內首次對標GPT-4o。7 月5日,商湯科技在WAIC 2024 舉辦“大愛無疆·向新力”人工智能論壇,發佈國內首個具備流式原生多模態交互能力大模型「日日新SenseNova 5.5」,綜合性能較兩個月前的「日日新5.0」提升30%,交互效果和多項核心指標實現對標GPT-4o。「日日新5.5」主要更新點包括:(1)6000 億參數基模型性能全面提升。大量使用合成高階思維鏈數據,提升推理思維能力,在數理邏輯、英文、指令跟隨等方面能力增強明顯。(2)率先推出國內首個“所見即所得”模型「日日新5o」,流式多模態交互,帶來全新AI 交互模式。

(3)端側模型全面升級,發佈「日日新5.5 Lite」,相比4 月5.0 版模型精度提升10%,推理效率提升15%,首包延遲降低40%。特別是在多模態能力上,「日日新5.5」在大部分核心測試集指標上都對標甚至超過GPT-4o。

AI 大模型演進中,創新的交互模式將率先定義行業發展。通過整合跨模態信息,基於聲音、文本、圖像和視頻等多種形式,「日日新5o」帶來了實時的流式多模態AI 交互體驗。使用感受如同人類自己交流一樣直接,可以直接見客戶所見,理解客戶所需。這種交互模式多任務適應性強,能夠在同一模型中自然處理多種任務,且根據不同上下文自適應調整行爲和輸出。從場景理解分析、物體信息描述、書籍圖文總結,甚至粗糙的簡筆畫、面部情緒,「日日新5o」都能精準拿捏,絲滑交互,還能言語俏皮的與人做互動。

高度關注端側AI 和行業應用,AI 商業落地加速中。在商湯看來,要讓每個人都能用上AI 大模型就必須從終端開始。「日日新5.5 Lite」端側大語言模型「商量SenseChat Lite-5.5」各維度全面升級,是目前綜合性能最好的端側模型。同時,配合端雲模式,既保障性能,又保障速度。目前,商湯「日日新」端側模型已深入各個行業,與超過150+客戶啓動商業對接,覆蓋智能手機、平板電腦、VR 一體機、車載電腦、智能檯燈等諸多IoT 設備部署應用。

接入商湯「日日新?商量」端側大模型,單臺設備成本低至9.9 元/每年。商湯端側大模型擁有多項優勢,包括:(1)可支持。多種垂直業務方向,如寫作、百科知識等不同領域優化。(2)可用性。同時支持端側部署及雲側調用。

(3)低門檻。端側SDK 集成簡易,可支持快速部署。目前,商湯“日日新”大模型體系已經在大量應用場景和垂直行業中發揮實際價值:編程領域,通過大模型提供智能代碼補全等功能,可顯著提升程序員日常工作效率;醫療領域,從診前的預問診,到健康諮詢再到診後隨訪,大模型的賦能改善患者就醫全流程體驗;金融領域,商湯已在多模態、多場景與銀行、保險、券商和資管客戶展開合作;消費領域,商湯與多家國內頭部廠商合作,將大模型能力轉化爲場景化服務,例如通過Copilot 幫助用戶進行表格生成、數據分析、文案寫作,提升個人生產力。此外,爲幫助更多企業用戶低門檻接入,商湯於近期推出“大模型0 元Go”計劃。凡「日日新」新註冊用戶,將獲得涉及調用、遷徙、訓練等多項免費服務大禮包,同時免費贈送5000 萬Tokens包,並派出專屬搬家顧問提供從OpenAI 到「日日新」的遷移系列培訓。

可控人物視頻生成大模型Vimi 發佈,AI+視頻2C 落地加速中。根據Vimi 相機官微,商湯在WAIC 2024 上發佈了首個可控人物視頻生成大模型——Vimi,併入選WAIC 展覽展示最高榮譽“鎮館之寶”,成爲本屆大會最具創新展品。

Vimi 基於商湯日日新大模型的強大能力,僅通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,不僅能實現精準的人物表情控制,還可實現在半身區域內控制照片中人物的自然肢體變化。並支持多種驅動方式,可通過已有人物視頻、動畫、聲音、文字等多種元素進行驅動。Vimi 模型的優勢在於其多年積累的面部跟蹤技術和對人臉細節的精準控制,使得人物的表情更加鮮活。與市場上其他模型相比,Vimi 在人臉和上半身的控制上更爲精準,能夠生成具有高一致性和光影和諧的視頻。此外,Vimi 具備極強的穩定性,尤其在長視頻的情景下,能夠穩定保持人物的臉部可控,可生成長達1 分鐘以上的單鏡頭人物類視頻,畫面效果不會隨着時間的變化而劣化或失真,真正滿足娛樂互動等需要長時間穩定視頻生成需求。Vimi 在人物視頻場景生成中,可以做到整個的環境都跟着肢體的控制去變化,包括生成合理的頭髮的抖動。甚至能夠模擬輸入鏡頭角度,比如輸入鏡頭是逐漸拉近,輸出也能有自然地逐漸拉近的效果。自然流暢的頭髮飄動、服飾變換以及背景環境的營造,Vimi 都能一一呈現,讓生成的視頻更加逼真、生動。此外,它還支持光影變化的模擬,讓視頻中的每一個場景都充滿電影級的質感。Vimi 模型特別是在長視頻情景下能夠穩定保持人物臉部可控。此外,Vimi 模型還能夠控制鏡頭角度和生成合理的頭髮抖動效果,爲視頻創作者提供了更多的創作自由度。Vimi 相機是Vimi 可控人物視頻大模型體系的第一款C 端產品,能夠滿足廣大女性用戶的娛樂創作需求。用戶只需上傳不同角度的高清人物圖片,即可自動生成數字分身和不同風格的寫真視頻,提供唯美寫真風、奇幻風等多種生成風格,讓用戶彷彿穿越不同次元,享受大片質感的沉浸式視覺效果。對於熱衷表情包的用戶來說,Vimi 相機通過單張圖片即可驅動生成各種趣味的人物表情包,玩法多樣,實現創作自由。我們認爲,此次Vimi 的發佈,推動公司在AI+視頻領域進入到了新時期, Vimi 的功能進一步拓寬了AI 大模型應用的邊界,爲公司業務的拓展奠定了堅實基礎。

「Sensechat 」發佈香港本土版,AI 落地愈發瞄準細分市場。7 月,商湯「Sensechat 」手機App 及網頁版向香港用戶免費開放。「Sensechat 」基於商湯今年5 月推出的“商量多模態大模型粵語版”。依託商湯“日日新”出色語言和多模態能力,以及對粵語及本地文化、熱點的深入理解,「Sensechat」定位爲“香港用戶的貼心小棉襖”,用戶可以直接用最熟悉的廣東話跟它聊天,直接文字或語音輸入,問問題、搜東西、生成圖片、寫文案。從生活、學習到工作,「Sensechat」都能帶來真正地道的AI 體驗,連本地最新信息和社會熱門話題,它都十分清楚,甚至還會靈活使用本地流行語。通過App Store 下載「Sensechat」iOS 手機App,使用香港手機號或電子郵件註冊,即可隨時隨地免費體驗最智能、快捷、地道的AI 體驗,Android 版本亦即將很快推出。「Sensechat」App 支持文字或語音輸入,體驗方便,主要功能包括:(1)本地化體驗。「Sensechat」對香港本地文化、風俗習慣和社會熱門話題都有深入了解。

用戶可在手機App 中以廣東話混合英文與「Sensechat」自然順暢地進行問答。(2)多模態問答。用戶可直接上載文件或圖片「Sensechat」就能深入分析內容,生成摘要並解答用戶對文件的問題。(3)實時搜索。「Sensechat」能整合多個信息來源,讓用戶能快速獲取最新信息,包括實時新聞、天氣狀況等用戶亦可進行進一步搜索。(4)圖像生成。

只需簡單描述,「Sensechat」即可快速生成各種風格圖片,讓用戶實時與朋友分享,或上傳到自己的社交平台,讓創作變得更隨心隨意。(5)文案撰寫。無論是廣告文案、商業計劃書還是學術寫作,用戶都能通過「Sensechat」獲取專業的文案建議,激發寫作靈感。此外,「Sensechat」網頁版擁有強大的多模態文件處理能力,和超長文本理解、思考、生成能力,支持上載最多50 個文件。無論想問生活小竅門,還是解數學題、分析圖片、編寫代碼,「Sensechat」網頁版都能輕鬆搞定。我們認爲,「Sensechat 」香港本土版的發佈,是公司在細分市場落地的重要嘗試,對粵語環境的適應也從側面凸顯了公司大模型領先的技術實力,公司未來AI 商業落地值得期待。

與華爲積極合作,昇騰助力商湯AI 落地。WAIC 2024 期間,昇騰人工智能產業高峰論壇2024 成功舉辦,聚焦大模型推理和客戶夥伴優秀實踐,探索加速大模型創新與應用落地之路。商湯科技聯合創始人、大裝置事業群總裁楊帆受邀出席並發表主題演講《生態互聯引領大模型時代創新浪潮》,分享了商湯日日新大模型體系基於昇騰AI 基礎軟硬件平台的全棧技術能力原生開發實踐,引領大模型時代創新浪潮。原生開發作爲加速AI 創新的重要引擎,正逐漸成爲行業焦點。商湯科技大模型研究總監龔睿昊受邀出席“昇騰AI 夥伴原生開發成果發佈”,商湯大裝置將與合作伙伴一起,共同推動技術創新與產業融合發展。值得一提的是,在WAIC 2024 商湯人工智能論壇上,舉辦了昇騰原生模型合作簽約儀式,商湯科技與華爲技術有限公司簽署合作協議,推動大模型的原生開發邁向新的臺階。從基礎設施的構建,到大模型的突破,再到應用的繁榮,都離不開上下游生態的緊密協同。在過去一年多時間裏,商湯與昇騰、昇思團隊進行了緊密的合作,共同構建下一代大模型底座和大模型訓練新生態。例如,商湯能夠在超過三千卡的集群上,跑出行業領先的算力利用率,從而能夠以性能更高、效率更高的集群能力服務下游企業。此前,商湯大裝置AI 雲、日日新·商量大語言模型、商湯醫療大模型“大醫”均通過了與Atlas 系列服務器的相互兼容性測試,能夠爲客戶提供更爲安全、高效、可靠的人工智能全棧解決方案和應用體驗。楊帆表示,“商湯的平台、算法以及行業場景的軟件能力與昇騰的硬件、底層基礎軟件能力的深度整合,將爲未來人工智能服務各個行業和產業提供更大的價值和更多樣化的解決方案。”未來,商湯還將繼續深化與華爲的合作,打造出更加高效、低成本、低門檻的人工智能基礎設施,更好地服務更多行業、更多場景,給個人消費者和企業帶來更多更好的智能化服務,推動中國人工智能技術和產業的持續發展。我們認爲,公司通過跟華爲積極合作,獲得了重要的國產算力夥伴,伴隨昇騰生態的發展,商湯AI 落地也有望得到重要助力。

盈利預測與投資建議。我們認爲,此次流式多模態交互大模型「日日新5.5」的發佈,在國內首次實現了對標GPT-4o,這進一步彰顯了商湯強大的技術能力,這也奠定了AI 商業落地的堅實基礎,而Vimi 的發佈,更是帶動公司AI+視頻業務進入新時期,伴隨未來日日新模型的持續迭代,帶動公司相關AI 應用的持續發展,公司全新增長空間已經打開,未來發展值得期待。我們綜合各類因素,給予商湯集團2024 年16-20 倍PS,對應公司合理價值區間2.27-2.84 港元(1港元= 0.9315 人民幣),給予“優於大市”評級。

風險提示。AI 商業化不及預期的風險;公司國際化拓展不及預期的風險等。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論