生成式AI可能迎來下一個風口：TTT模型

支持Sora等模型的Transformers架构“大脑”是查找表、所谓隐藏状态。不同与Transformers，TTT不会随着处理更多数据而不断增长，它用机器学习模型取代隐藏状态，就像AI的嵌套娃娃，是一个模型中的模型。

下一代生成式人工智能（AI）的焦点可能是简称TTT的测试时间训练模型。

Transformers 架构是 OpenAI 视频模型 Sora 的基础，也是 Anthropic 的 Claude、谷歌的 Gemini 和 OpenAI旗舰模型GPT-4o 等文本生成模型的核心。但现在，这些模型的演进开始遇到技术障碍，尤其是与计算相关的障碍。因为Transformers 在处理和分析大量数据方面并不是特别高效，至少在现成的硬件上运行是这样。企业为了满足Transformers 的需求建设和扩展基础设施，这导致电力需求急剧增加，甚至可能无法持续满足需求。

本月斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和 Meta 的研究人员联合发布，他们耗时一年半开发了TTT架构。研究团队称，TTT 模型不仅可以处理比 Transformers 多得多的数据，而且不会消耗像Transformers那么多的计算电力。

为什么外界认为TTT模型相比Transformers更有前途？首先需要了解，Transformers 的一个基本组成部分是“隐藏状态”，它本质上是一个很长的数据列表。当 Transformer 处理某些内容时，它会将条目添加到隐藏状态，以便“记住”刚刚处理的内容。例如，如果模型正在处理一本书，隐藏状态值将是单词（或单词的一部分）的呈现形式。

参与前述TTT 研究的斯坦福大学博士后Yu Sun最近对媒体解释说，如果将Transformer 视为一个智能实体，那么查找表、它的隐藏状态就是 Transformer 的大脑。这个大脑实现了 Transformer 众所周知的一些功能，例如情境学习。

隐藏状态帮助 Transformers变得强大，但它也阻碍了Transformers的发展。比如Transformers 刚刚阅读了一本书，为了“说”出关于这本书中的哪怕一个字，Transformers 模型都必须扫描整个查找表，这种计算要求相当于重读整本书。

因此，Sun和TTT的其他研究人员想到，用机器学习模型取代隐藏状态——就像 AI 的嵌套娃娃，也可以说是一个模型中的模型。与 Transformers 的查找表不同，TTT 模型的内部机器学习模型不会随着处理更多数据而不断增长。相反，它将处理的数据编码，处理为被称为权重的代表性变量，这就是 TTT 模型高性能的原因。无论 TTT 模型处理多少数据，其内部模型的大小都不会改变。

Sun认为，未来的 TTT 模型可以高效处理数十亿条数据，从单词到图像、从录音到视频。这远远超出了现有模型的能力。TTT的系统可以对一本书说 X 个字，却不需要做重读这本书 X 遍的复杂计算。“基于 Transformers 的大型视频模型、例如 Sora，只能处理 10 秒的视频，因为它们只有一个查找表‘大脑’。我们的最终目标是开发一个系统，可以处理类似于人类生活中视觉体验的长视频。”

TTT 模型最终会取代 transformers吗？媒体认为，有这个可能，但现在下结论为时过早。TTT 模型现在并不是Transformers的直接替代品。研究人员只开发了两个小模型进行研究，因此目前很难将 TTT 与一些大型 Transformers模型实现的结果进行比较。

并未参与前述TTT研究的伦敦国王学院信息学系高级讲师 Mike Cook评论称，TTT是一项非常有趣的创新，如果数据支持它能提高效率的观点，那是个好消息，但他无法告诉判断，TTT是否比现有的架构更好。Cook说，他读本科的时候，有一位老教授经常讲一个笑话：你如何解决计算机学中的任何问题？再添加一个抽象层。在神经网络中添加一个神经网络就让他想起了这个笑话的解答。

支持Sora等模型的Transformers架構“大腦”是查找表、所謂隱藏狀態。不同與Transformers，TTT不會隨着處理更多數據而不斷增長，它用機器學習模型取代隱藏狀態，就像AI的嵌套娃娃，是一個模型中的模型。

下一代生成式人工智能（AI）的焦點可能是簡稱TTT的測試時間訓練模型。

Transformers 架構是 OpenAI 視頻模型 Sora 的基礎，也是 Anthropic 的 Claude、谷歌的 Gemini 和 OpenAI旗艦模型GPT-4o 等文本生成模型的核心。但現在，這些模型的演進開始遇到技術障礙，尤其是與計算相關的障礙。因爲Transformers 在處理和分析大量數據方面並不是特別高效，至少在現成的硬件上運行是這樣。企業爲了滿足Transformers 的需求建設和擴展基礎設施，這導致電力需求急劇增加，甚至可能無法持續滿足需求。

本月斯坦福大學、加州大學聖地亞哥分校、加州大學伯克利分校和 Meta 的研究人員聯合發佈，他們耗時一年半開發了TTT架構。研究團隊稱，TTT 模型不僅可以處理比 Transformers 多得多的數據，而且不會消耗像Transformers那麼多的計算電力。

爲什麼外界認爲TTT模型相比Transformers更有前途？首先需要了解，Transformers 的一個基本組成部分是“隱藏狀態”，它本質上是一個很長的數據列表。當 Transformer 處理某些內容時，它會將條目添加到隱藏狀態，以便“記住”剛剛處理的內容。例如，如果模型正在處理一本書，隱藏狀態值將是單詞（或單詞的一部分）的呈現形式。

參與前述TTT 研究的斯坦福大學博士後Yu Sun最近對媒體解釋說，如果將Transformer 視爲一個智能實體，那麼查找表、它的隱藏狀態就是 Transformer 的大腦。這個大腦實現了 Transformer 衆所周知的一些功能，例如情境學習。

隱藏狀態幫助 Transformers變得強大，但它也阻礙了Transformers的發展。比如Transformers 剛剛閱讀了一本書，爲了“說”出關於這本書中的哪怕一個字，Transformers 模型都必須掃描整個查找表，這種計算要求相當於重讀整本書。

因此，Sun和TTT的其他研究人員想到，用機器學習模型取代隱藏狀態——就像 AI 的嵌套娃娃，也可以說是一個模型中的模型。與 Transformers 的查找表不同，TTT 模型的內部機器學習模型不會隨着處理更多數據而不斷增長。相反，它將處理的數據編碼，處理爲被稱爲權重的代表性變量，這就是 TTT 模型高性能的原因。無論 TTT 模型處理多少數據，其內部模型的大小都不會改變。

Sun認爲，未來的 TTT 模型可以高效處理數十億條數據，從單詞到圖像、從錄音到視頻。這遠遠超出了現有模型的能力。TTT的系統可以對一本書說 X 個字，卻不需要做重讀這本書 X 遍的複雜計算。“基於 Transformers 的大型視頻模型、例如 Sora，只能處理 10 秒的視頻，因爲它們只有一個查找表‘大腦’。我們的最終目標是開發一個系統，可以處理類似於人類生活中視覺體驗的長視頻。”

TTT 模型最終會取代 transformers嗎？媒體認爲，有這個可能，但現在下結論爲時過早。TTT 模型現在並不是Transformers的直接替代品。研究人員只開發了兩個小模型進行研究，因此目前很難將 TTT 與一些大型 Transformers模型實現的結果進行比較。

並未參與前述TTT研究的倫敦國王學院信息學系高級講師 Mike Cook評論稱，TTT是一項非常有趣的創新，如果數據支持它能提高效率的觀點，那是個好消息，但他無法告訴判斷，TTT是否比現有的架構更好。Cook說，他讀本科的時候，有一位老教授經常講一個笑話：你如何解決計算機學中的任何問題？再添加一個抽象層。在神經網絡中添加一個神經網絡就讓他想起了這個笑話的解答。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

生成式AI可能迎来下一个风口：TTT模型

生成式AI可能迎來下一個風口：TTT模型

風險及免責聲明

聲明