不用GPU也能訓練大模型？這家AI初創企業首推非Attention機制大模型

財聯社 · 01/30 09:18

①AI初创公司岩芯数智发布了国内首个非Attention机制的大模型Yan，这是业内少有的非Transformer架构大模型； ②拥有相较于同等参数Transformer的7倍训练效率、5倍推理吞吐、3倍记忆能力，同时支持CPU无损运行、低幻觉表达、100%支持私有化应用。

《科创板日报》1月30日讯（记者张洋洋） 在Transformer占大模型架构主流的背景下，国内一家AI初创企业正在试图撼动前者的主导地位。

近期，岩山科技旗下的AI初创公司岩芯数智发布了国内首个非Attention机制的大模型Yan，这是业内少有的非Transformer架构大模型。

Transformer是一种基于注意力机制的神经网络架构，也是当今自然语言处理领域的主流模型架构，它可以处理序列数据，提高翻译、识别等任务的效果。

目前，主流的大模型系列有三个：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。国内的大模型基本都延续了这三个系列，或是它们的一个子版本演变而来。

而上述三个系列都是基于Transformer架构衍生而来，成为大模型的支柱。

岩芯数智CEO刘凡平在接受《科创板日报》采访时表示，Yan是一个通用大语言模型，采用的是公司自研的“Yan架构”，拥有相较于同等参数Transformer的7倍训练效率、5倍推理吞吐、3倍记忆能力，同时支持CPU无损运行、低幻觉表达、100%支持私有化应用。

之所以要另辟蹊径，刘凡平称，主要是标准的Transformer架构模型，算力消耗，训练成本太高，交付成本也高，成本难以覆盖客户的付费，不少中小型企业望而却步，“这种情况下，如果一直做下去，我们做一单亏一单”。

面临算力耗费高、数据需求大等问题，因此岩芯数智从技术上放弃了Transformer架构和Attention机制。

对于Yan模型的落地周期和成本，刘凡平告诉记者，一个是缩短和客户的沟通时间、减少客户的理解成本，一般需求阶段够会在1-2个月，通过Yan架构，1个月以内已经可以出为客户私有化模型；另一方面，项目成本会降低，例如300万合同的项目可以降低到260万左右，但是利润不一定是下降了。

就业内共识而言，大模型竞赛已经从“卷参数”的时代过渡到了“卷应用”的阶段，行业对于通用大模型的需求亟待解决，故而许多大模型会通过剪枝、压缩等主流技术手段来实现在设备上的运行。

岩芯数智董事长陈代千在接受《科创板日报》采访时表示，之后会做到训推一体，希望Yan能够在CPU甚至在手机芯片上都能做训练，做推理，能在端侧设备上做一些私有化的部署。

刘凡平还透露，岩芯数智第四代大模型Y2.0已经在路上，这是一个全模态的大模型架构，目标是要全面打通感知、认知、决策与行动，构建通用人工智能的智能循环，期望未来能做一个通用人工智能操作系统。

①AI初創公司巖芯數智發佈了國內首個非Attention機制的大模型Yan，這是業內少有的非Transformer架構大模型； ②擁有相較於同等參數Transformer的7倍訓練效率、5倍推理吞吐、3倍記憶能力，同時支持CPU無損運行、低幻覺表達、100%支持私有化應用。

《科創板日報》1月30日訊（記者張洋洋） 在Transformer佔大模型架構主流的背景下，國內一家AI初創企業正在試圖撼動前者的主導地位。

近期，巖山科技旗下的AI初創公司巖芯數智發佈了國內首個非Attention機制的大模型Yan，這是業內少有的非Transformer架構大模型。

Transformer是一種基於注意力機制的神經網絡架構，也是當今自然語言處理領域的主流模型架構，它可以處理序列數據，提高翻譯、識別等任務的效果。

目前，主流的大模型系列有三個：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。國內的大模型基本都延續了這三個系列，或是它們的一個子版本演變而來。

而上述三個系列都是基於Transformer架構衍生而來，成爲大模型的支柱。

巖芯數智CEO劉凡平在接受《科創板日報》採訪時表示，Yan是一個通用大語言模型，採用的是公司自研的“Yan架構”，擁有相較於同等參數Transformer的7倍訓練效率、5倍推理吞吐、3倍記憶能力，同時支持CPU無損運行、低幻覺表達、100%支持私有化應用。

之所以要另闢蹊徑，劉凡平稱，主要是標準的Transformer架構模型，算力消耗，訓練成本太高，交付成本也高，成本難以覆蓋客戶的付費，不少中小型企業望而卻步，“這種情況下，如果一直做下去，我們做一單虧一單”。

面臨算力耗費高、數據需求大等問題，因此巖芯數智從技術上放棄了Transformer架構和Attention機制。

對於Yan模型的落地週期和成本，劉凡平告訴記者，一個是縮短和客戶的溝通時間、減少客戶的理解成本，一般需求階段夠會在1-2個月，通過Yan架構，1個月以內已經可以出爲客戶私有化模型；另一方面，項目成本會降低，例如300萬合同的項目可以降低到260萬左右，但是利潤不一定是下降了。

就業內共識而言，大模型競賽已經從“卷參數”的時代過渡到了“卷應用”的階段，行業對於通用大模型的需求亟待解決，故而許多大模型會通過剪枝、壓縮等主流技術手段來實現在設備上的運行。

巖芯數智董事長陳代千在接受《科創板日報》採訪時表示，之後會做到訓推一體，希望Yan能夠在CPU甚至在手機芯片上都能做訓練，做推理，能在端側設備上做一些私有化的部署。

劉凡平還透露，巖芯數智第四代大模型Y2.0已經在路上，這是一個全模態的大模型架構，目標是要全面打通感知、認知、決策與行動，構建通用人工智能的智能循環，期望未來能做一個通用人工智能操作系統。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

不用GPU也能训练大模型？这家AI初创企业首推非Attention机制大模型