在一項基準測試中,Liquid AI開發的LFM模型跑贏了Meta和微軟的流行模型,同時需要的內存更少。該公司推出的STAR新框架在與混合模型相比實現了高達37%的緩存大小減少,與Transformers相比則減少了90%。
剛剛,一家名爲Liquid AI(液態AI)的生成式人工智能初創公司宣佈,完成一輪價值2.5億美元的早期融資,由芯片巨頭AMD領投。
這項投資將支持Liquid AI進一步開發其Liquid Foundation模型(LFM),這是一種面向企業的輕量級、通用AI模型,旨在挑戰傳統的基於雲端的AI模型,如OpenAI、亞馬遜AWS和谷歌雲。
液態神經網絡:受大腦啓發的創新
Liquid AI的LFM與傳統基於變換器的模型架構不同,它們基於「液態神經網絡」,這是一種受大腦啓發的系統,即使在訓練後也能保持適應性和魯棒性(穩定力)。
這些模型非常適合處理大量順序多模態數據,包括視頻、音頻、文本、時間序列和信號。在MMLU-Pro基準測試中,Liquid AI的LFM模型跑贏了Meta和微軟的流行模型,同時需要的內存更少。
LFM具備多語言能力,包括西班牙語、法語、德語、中文、阿拉伯語、日語和韓語。此外,這些模型正在爲英偉達、AMD、高通和蘋果的硬件進行優化。
LFM有三個模型可供選擇:LFM-1B適合資源受限的環境,LFM-3B優化了邊緣部署,而LFM-40B專家混合模型(MoE)則設計用於複雜任務。 這些模型在知識容量、多步推理、長上下文回憶、推理效率和訓練效率方面表現出色。
STAR,專注性能與效率的平衡
Liquid AI還推出了一種能夠自動生成和優化AI模型架構的新框架(STAR,定製架構合成)。STAR 框架利用進化算法和數字編碼系統來解決深度學習模型中平衡質量和效率的複雜挑戰。
根據Liquid AI的研究團隊(包括 Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli 和 Michael Poli)的說法,STAR的方法代表着傳統建築設計方法的轉變。
STAR不依賴於手動調整或預定義模板,而是使用分層編碼技術(稱爲「STAR 基因組」)來探索架構的廣闊設計空間。這些基因組支持重組和突變等迭代優化過程,使得STAR能夠合成和改進針對特定指標和硬件要求的架構。
Liquid AI對STAR的最初關注點是自回歸語言建模,而傳統的Transformer架構長期以來一直佔據主導地位。
在研究期間進行的測試中,Liquid AI研究團隊展示了STAR生成架構的能力,其性能始終優於高度優化的 Transformer++架構和混合模型。
例如,在優化質量和緩存大小時,STAR演化架構與混合模型相比實現了高達37%的緩存大小減少,與Transformers相比則減少了90%。儘管效率有所提高,但STAR生成的模型仍保持甚至超過了同類模型的預測性能。
類似地,在優化模型質量和大小時,STAR將參數數量減少了多達13%,同時仍提高了標準基準測試的性能。
該研究還強調了STAR擴展其設計的能力。STAR演化模型的參數從1.25億擴展到10億,其結果與現有的 Transformer++和混合模型相當甚至更優,同時顯著降低了推理緩存要求。
Liquid AI表示,STAR植根於一種融合了動力系統、信號處理和數值線性代數原理的設計理論。
這種基礎方法使團隊能夠爲計算單元開發一個多功能的搜索空間,涵蓋注意力機制、遞歸和卷積等組件。
STAR的一大特色是其模塊化,這使得該框架能夠跨多個層次對架構進行編碼和優化。此功能可深入了解重複出現的設計主題,並使研究人員能夠確定架構組件的有效組合。