來源:證券時報
繼快思考模型Turbo S後,騰訊又推出了自研深度思考模型混元T1正式版。據介紹,這是一款「能秒回」的強推理模型,也是工業界首次將混合Mamba架構無損應用於超大型推理模型。
3月21日深夜,騰訊混元大模型團隊正式推出了自研深度思考模型混元T1正式版。該模型具有效果好、速度快的特點,多項指標達到業界領先推理水平,吐字速度達到每秒60—80tokens,在實際生成效果表現中遠快於DeepSeek-R1推理模型。
能秒回的深度思考模型
目前,用戶在使用DeepSeek-R1等推理模型時,由於模型需要進行深度思考,並在提供回答前列出詳細的思維鏈,雖然能夠體現較高的智能化水平,但存在響應速度慢、不夠高效的短板。
混元T1正式版則致力於解決這一問題,不僅吐字快、能秒回,還擅長超長文處理。在體現推理模型基礎能力的常見基準測試上,如大語言模型評估增強數據集MMLU-PRO中,混元T1取得87.2分,超越了DeepSeek-R1,僅次於o1。
值得注意的是,混元T1正式版沿用了混元Turbo S的創新架構,採用Hybrid-Mamba-Transformer融合模式。這一架構有效降低了傳統Transformer結構的計算複雜度,減少了KV-Cache的內存佔用,從而顯著降低了訓練和推理成本。
這也意味着,騰訊摒棄了傳統及主流的純Transformer架構,首次將混合Mamba架構無損應用於超大型推理模型。
目前,混元T1已在騰訊雲官網上線。價格方面,輸入價格爲1元/每百萬tokens,輸出價格爲4元/每百萬tokens,輸出價格爲DeepSeek標準時段的1/4,與DeepSeek優惠時段一致。
騰訊大模型業務動作頻頻
作爲大模型的「後發者」,騰訊今年以來動作頻頻,不僅快速地將旗下十餘款產品接入了DeepSeek,自研的混元模型系列也進入快速迭代期。同時,騰訊也在加大對C端產品元寶的投入,積極搶佔大模型用戶入口。
騰訊3月19日發佈的最新業績顯示,騰訊2024年全年實現營收6603億元,同比增長8%;凈利潤爲1940.7億元,比上年增長68%。騰訊董事會主席兼首席執行官馬化騰在業績發佈會上表示,在過去一兩個月裏,AI得到了很大發展,尤其是在DeepSeek橫空出世後,騰訊在雲業務、「元寶」(AI應用)上都積極擁抱DeepSeek。
據騰訊官方微信號發佈,自今年2月來,騰訊元寶接入DeepSeek滿血版和全新混元模型,雙核驅動元寶高速進化、日更級迭代,35天版本已經更新30次。除此以外,目前騰訊已有元寶、微信、騰訊文檔、QQ瀏覽器、QQ音樂、微信讀書等數十款產品及業務接入DeepSeek。
業內人士分析,作爲擁有強大生態和用戶基礎的公司,騰訊如今通過走混元模型+DeepSeek模型結合的路徑,致力於在AI應用領域構建起自身的競爭優勢。
馬化騰在業績發佈會上還表示:「數月前,我們重組了AI團隊以聚焦於快速的產品創新及深度的模型研發,增加了AI相關的資本開支,並加大了我們對原生AI產品的研發和營銷力度。我們相信這些增加的投資,會通過提升廣告業務的效率及遊戲的生命週期而帶來持續的回報,並隨着我們個人AI應用的加速普及和更多企業採用我們的AI服務,創造更長遠的價值。」
業績顯示,2024年第四季度,騰訊資本開支同比增長386%至365.8億元,2024年全年資本開支達到767.6億元,同比增長221%,創歷史新高,佔總營收的11.6%。研發投入方面,2024年全年的AI研發投入達到706.9億元,2018年至今累計投入3403億元。騰訊總裁劉熾平表示,第四季度的資本支出增加非常顯著,這是由於這一季度公司購買了更多GPU以滿足推理需求,計劃在2025年進一步增加資本支出。
編輯/jayden
評論(2)
請選擇舉報原因