share_log

不用GPU也能训练大模型?这家AI初创企业首推非Attention机制大模型

不用GPU也能訓練大模型?這家AI初創企業首推非Attention機制大模型

財聯社 ·  01/30 09:18

①AI初創公司巖芯數智發佈了國內首個非Attention機制的大模型Yan,這是業內少有的非Transformer架構大模型; ②擁有相較於同等參數Transformer的7倍訓練效率、5倍推理吞吐、3倍記憶能力,同時支持CPU無損運行、低幻覺表達、100%支持私有化應用。

《科創板日報》1月30日訊(記者 張洋洋) 在Transformer佔大模型架構主流的背景下,國內一家AI初創企業正在試圖撼動前者的主導地位。

近期,巖山科技旗下的AI初創公司巖芯數智發佈了國內首個非Attention機制的大模型Yan,這是業內少有的非Transformer架構大模型。

Transformer是一種基於注意力機制的神經網絡架構,也是當今自然語言處理領域的主流模型架構,它可以處理序列數據,提高翻譯、識別等任務的效果。

目前,主流的大模型系列有三個:OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。國內的大模型基本都延續了這三個系列,或是它們的一個子版本演變而來。

而上述三個系列都是基於Transformer架構衍生而來,成爲大模型的支柱。

巖芯數智CEO劉凡平在接受《科創板日報》採訪時表示,Yan是一個通用大語言模型,採用的是公司自研的“Yan架構”,擁有相較於同等參數Transformer的7倍訓練效率、5倍推理吞吐、3倍記憶能力,同時支持CPU無損運行、低幻覺表達、100%支持私有化應用。

之所以要另闢蹊徑,劉凡平稱,主要是標準的Transformer架構模型,算力消耗,訓練成本太高,交付成本也高,成本難以覆蓋客戶的付費,不少中小型企業望而卻步,“這種情況下,如果一直做下去,我們做一單虧一單”。

面臨算力耗費高、數據需求大等問題,因此巖芯數智從技術上放棄了Transformer架構和Attention機制。

對於Yan模型的落地週期和成本,劉凡平告訴記者,一個是縮短和客戶的溝通時間、減少客戶的理解成本,一般需求階段夠會在1-2個月,通過Yan架構,1個月以內已經可以出爲客戶私有化模型;另一方面,項目成本會降低,例如300萬合同的項目可以降低到260萬左右,但是利潤不一定是下降了。

就業內共識而言,大模型競賽已經從“卷參數”的時代過渡到了“卷應用”的階段,行業對於通用大模型的需求亟待解決,故而許多大模型會通過剪枝、壓縮等主流技術手段來實現在設備上的運行。

巖芯數智董事長陳代千在接受《科創板日報》採訪時表示,之後會做到訓推一體,希望Yan能夠在CPU甚至在手機芯片上都能做訓練,做推理,能在端側設備上做一些私有化的部署。

劉凡平還透露,巖芯數智第四代大模型Y2.0已經在路上,這是一個全模態的大模型架構,目標是要全面打通感知、認知、決策與行動,構建通用人工智能的智能循環,期望未來能做一個通用人工智能操作系統。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論