share_log

突破算力限制 Meta开源“记忆层”,重塑Transformer架构大模型

突破算力限制 Meta開源「記憶層」,重塑Transformer架構大模型

快訊 ·  01/03 06:09

扎克伯格旗下Meta Platforms分享了一個創新研究——Memory layers(記憶層)。目前,Transformer架構的預訓練大模型在存儲、查詢數據時,隨着參數的變大對算力的需求呈指數級增長。「記憶層」提出了新的高效查詢機制替代了傳統的查詢方法,通過比較查詢鍵與兩個較小集合中的鍵,可以快速找到最相關的鍵,而無需遍歷模型的整個記憶層。這也就是說,可以在不增加算力的情況下顯著增加大模型的參數。例如,研究人員在僅有1.3億參數的模型中添加了128億額外的記憶參數,其性能與Meta開源的Llama 2- 70相當,而算力卻比它低了10倍左右。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論