share_log

Meta裁掉的AI蛋白质团队,被英伟达盯上了

Meta裁掉的AI蛋白質團隊,被英偉達盯上了

投資界 ·  06/27 10:48

還記得被Meta裁掉的AI蛋白質團隊嗎?

整個團隊被無情裁掉後,其中8位科學家創辦了一家名爲EvolutionaryScale的AI+蛋白質初創公司,去年被福布斯爆料已經融資4000萬美元。

如今,EvolutionaryScale正式以種子輪推出,最終是1.42億美元種子輪遠遠高於此前爆料的4000萬美元!

本輪投資由GitHub 前首席執行官 Nat Friedman、Daniel Gross 和 Lux Capital 領投,亞馬遜和英偉達的風險投資部門 NVentures 也參與其中。

儘管無法超越Xaira Therapeutics這樣的超級初創(以10億美元資金設立),但是1.4億美元的種子輪融資在生物技術領域已經高得離譜。

就在同一時間,EvolutionaryScale還宣佈推出其蛋白質大語言模型ESM3

該模型宣稱其擁有98B參數,已經達到GPT3的參數規模,可以對蛋白質進行序列、結構和功能的設計。

1、Meta的AI蛋白質團隊,歸來!

2023年上半年,扎克伯格在Meta執行了”效率之年“,幾個月之內大裁一萬人,其中就包括由十幾名科學家組成的Meta-FAIR蛋白質小組。

裁員的主要原因是,他們認爲這個團隊“太學術化了”,公司希望放棄部分基礎研究,轉而支持能夠產生收入的人工智能項目。

資本的殘忍就在於,該團隊業內並不算岌岌無名,而是憑藉ESMFold打響了名聲。

ESMFold發佈於2022年7月,這是一個基於Transformer的150億參數語言模型,此前是參數*的蛋白質語言模型。

ESMFold預測出來的蛋白質不僅和 AlphaFold 2 具有相似的準確性,但 ESMFold 推理速度更快,能夠探索宏基因組蛋白的結構空間。

此外,ESMFold進一步預測了約6億個蛋白質結構,這些蛋白質來自此前從未被表徵過的細菌、病毒和其他微生物,這些宏基因組也被稱爲生物界的“暗物質”。

被裁後,ESMFold 團隊的 8 名創始人員成立了 EvolutionaryScale,再次並肩作戰,該初創公司致力於基於人工智能技術的蛋白質預測模型研究。

創始人 Alexander Rives負責領導此前的ESMFold 團隊,他是美國紐約大學計算機科學博士,Facebook 前人工智能科學家,專注於生物學的大規模語言模型。

同時,他也是Fate Therapeutics、Syros Pharmaceuticals(均在納斯達克上市)和Kallyope的聯合創始人。

離開Meta,再成立EvolutionaryScale,更像是重操舊業,也是Alexander Rives一直堅持的研究方向。

有意思的是,公司名稱“EvolutionaryScale”,正是在ESM模型(Evolutionary Scale Modeling )基礎上設立的。

甚至後續推出的ESM3也是沿用了在Meta時期的名稱,完全可以看作他們在Meta時期工作的後續。

2、ESM3:模擬5億年的進化

就在宣佈種子輪的同一天,EvolutionaryScale發佈了最新的ESM3模型,簡單來說這是一種多模態 + 蛋白質生成語言模型

該模型高達980億參數,與GPT3的參數相當,也是有史以來用於訓練生物模型的計算量*的模型,耗費了一萬億次浮點運算。

ESM3 較之前的版本進行了重大更新,從生物體和生物群落中採集的近 28 億個蛋白質序列進行了訓練,使科學家能夠促使模型以越來越高的準確度識別和驗證新蛋白質。

ESM3 通過將多尺度數據納入訓練過程,它不再像 ESM2 那樣只關注氨基酸序列數據而是整合了

多尺度方法使 ESM3 能夠執行多個任務:了解蛋白質的序列編碼、預測結構以及功能。

同時,數據表明隨着規模的擴大,ESM3對於蛋白質設計的能力也開始顯現,它實現了結構生成中實現原子級精度的能力,對於設計功能性蛋白質至關重要。

團隊還驗證了該模型的生成能力,以綠色熒光蛋白(通常稱爲 GFP)爲例,該蛋白質能夠天然吸收藍光併發出綠光,被用於實驗室追蹤蛋白質。

EvolutionaryScale經過了迭代,僅僅通過兩次實驗就找到了一個與天然亮度相當的熒光蛋白質,也被稱爲esmGFP,新生成的esmGFP和天然GFP僅有58%的序列相似(229個氨基酸)。

然而在大自然界,產生新熒光蛋白的進化過程需要數個世紀的時間,更不要說僅有58%的序列相似,也就是說esmGFP等效於進化模擬器執行的超過 5 億年的自然進化。

不過,生物學的數據非常稀缺,更不要說更高質量的數據,980億參數具體怎麼來的?

實際上,團隊之前曾使用 AI 預測僅通過序列了解的蛋白質的結構,而合成數據是ESM3 的關鍵,爲該模型的功能、規模提供了額外的途徑。

ESM3向未來邁出了一步,在他們看來未來 AI 將成爲一種工具,可以從*原理設計生物學,就像設計結構、機器和微芯片以及編寫計算機程序一樣。

業內人士稱,ESM3 標誌着蛋白質語言建模領域的潛在範式轉變。它代表着從專注於擴大氨基酸序列數據規模的時代向更注重整合多樣化、多尺度數據源的時代邁出的*步。

目前, ESM3的預印本已經放出,並且開放封閉測試版 API。團隊還宣佈,將發佈一個ESM3 1.4B參數版本的權重和代碼,可以用於非商業化使用場景。

該模型即將在NVIDIA BioNeMo上推出,完整的 ESM3 系列模型將很快作爲NVIDIA NIM微服務提供給特定客戶,與 NVIDIA 合作進行運行時優化。

3、一場豪賭,英偉達又投了

細看Evolutionary Scale背後的投資人,會發現所有都是TMT投資人,包括GitHub前首席執行官Nat Friedman、著名軟件領域投資人Daniel Gross。

Lux Capital成立於2000年,總部位於紐約,該公司傾向於投資新興科技公司,重點關注3D打印、機器學習和人工智能、飛行和手術機器人等領域。

同樣作爲產業投資人,英偉達和亞馬遜又雙叒叕出手了,爲ESM3提供了算力支持。也就是說,該公司沒有一家生物科技領域的支持者。

ESM3模型使用英偉達H100 Tensor Core GPU實現了有史以來生物基礎模型中最多的計算量。

980 億參數的 ESM3 模型使用的浮點運算次數比其前身 ESM2 多出約 25 倍,數據量多出 60 倍。

要知道,這家公司本身就是一個“巨大的賭注”。公司此前的一份BP中,反覆強調生成式人工智能模型可能需要十年才能幫助設計創新藥物。

這個重大賭注是擴大其模型訓練,以整合蛋白質以外的數據,併爲生物技術應用創建一個通用的人工智能模型。

發展階段大致是:擴大人工智能模型——爲其提供更多數據並增加其規模——將產生“生物人工智能的能力突破”。

這也是爲什麼Evolutionary Scale會把模型參數越煉越大,但生物領域會不會像通用大模型那樣出現“湧現”能力還不好說,尤其是生物界的許多知識仍然是未知的。

現實也是如此,生物學領域的人工智能在短期內不太可能提供豐厚的商業回報。像薛定諤這樣的商業公司市值都低於30 億美元。

在成本制定上,Evolutionary Scale 預計*年將花費 3800 萬美元,其中超 42% 的資金,也就是 1600 萬美元用於計算費用。

第二年高達 1.61 億美元,第三年高達 2.78 億美元,其中,計算費用分別爲 1 億美元和 2 億美元,佔比逐年增加。

根據Evolutionary Scale的構想,他們希望通過平台合作、使用費和收益分成等方式賺錢。

例如,EvolutionaryScale 可能會與製藥公司合作,將ESM3 整合到他們的工作流程中,或者與研究人員分享使用ESM3 實現商業化的突破性發現的收入。

除此之外,Evolutionary Scale的平台還可能用於環保、材料、農業等廣泛與生物科技相聯繫的領域。

這也是爲什麼,ESM3模型要上架 Amazon Bedrock、Amazon Sagemaker、AWS HealthOMICs 和 NVIDIA BioNeMo,他們希望通過這些渠道更多地獲取用戶。亞馬遜和英偉達的客戶都將能夠使用自己的數據對 ESM3進行微調。

Evolutionary Scale還把DeepMind 的分拆公司 Isomorphic Labs看成自己*的對手,後者已經和禮來、諾華等簽署了價值30億美元的藥物研發合作。

一個細節是,ESM3是在Andromeda 集群上訓練的,這一算力集群擁有包括近3000塊英偉達H100 GPU在內的大量算力基礎設施,正巧是投資人Daniel Gross所有。

該算力集群造價1億美元,被Daniel Gross用來換AI初創公司的股權,所以Evolutionary Scale中1.4億美元的種子輪有一部分可能是通過算力支付,就像阿里投資月之暗面一樣。

創始人表示,公司正在研發更大的模型,公司目前的資金可以維持大約兩年。就讓我們期待一下ESM4。

【本文由投資界合作伙伴微信公衆號:智藥局授權發佈,本平台僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論