追蹤AI最新趨勢

專題 891條資訊 16109人訂閱

谷歌深夜放復仇殺器Gemini，最強原生多模態史詩級碾壓GPT-4！語言理解首超人類

新智元 · 2023/12/07 11:53

谷歌的復仇大殺器Gemini，深夜忽然上線！

被ChatGPT壓着打了整整一年，谷歌選擇在12月的這一天，展開最強反擊戰。

多模態Gemini，迄今規模最大、能力最強的谷歌大模型，在文本、視頻、語音等多個領域超越了GPT-4，是真正的一雪前恥。

人類有五種感官，我們所建造的世界、所消費的媒體，都是以這樣的方式所呈現。

而Gemini的出現，就是邁向真正通用的AI模型的第一步！

Gemini的誕生，代表着AI模型的巨大飛躍，谷歌所有的產品，都將隨之改頭換面。

塞進多模態模型的搜索引擎、廣告產品、Chrome瀏覽器……這，就是谷歌給我們的未來。

多模態的史詩級創新

以前，多模態大模型就是將純文本、純視覺和純音頻模型拼接在一起，就像OpenAI的GPT-4、DALL·E和Whisper那樣。然而，這並不是最優解。

相比之下，在設計之初，多模態就是Gemini計劃的一部分。

從一開始，Gemini就在不同模態上進行了訓練。隨後，研究人員又用額外的多模態數據進行了微調，進一步提升了模型的有效性。最終，實現了「無縫」地理解和推理各種模態的輸入內容。

從結果上來看，Gemini的性能要遠遠優於現有的多模態模型，而且它的功能幾乎在每個領域都是SOTA級別的。

而這個最大、最有能力的模型，也意味着Gemini可以用和人類一樣的方式理解我們周圍的世界，並且吸收任何類型的輸入和輸出——無論是文字，還是代碼、音頻、圖像、視頻。

Gemini猜對了紙團在最左邊的杯子裏

Google DeepMind首席執行官兼聯合創始人Demis Hassabis表示，谷歌一直對非常通用的系統感興趣。

而這裏最關鍵的，就是如何混合所有這些模式，如何從任意數量的輸入和感官中收集儘可能多的數據，然後給出同樣多樣化的響應。

DeepMind和谷歌大腦合併後，果然拿出了真東西。

之所以命名爲Gemini，就是因爲谷歌兩大AI實驗室的合體，另外也一個解釋是參考了美國宇航局的Gemini項目，後者爲阿波羅登月計劃鋪平了道路。

首次超越人類，大幅碾壓GPT-4

雖然沒有正式公佈，但根據內部消息，Gemini有萬億參數，訓練所用的算力甚至達到GPT-4的五倍。

既然是被拿來硬剛GPT-4的模型，Gemini當然少不了經歷最嚴格的測試。

谷歌在多種任務上評估了兩種模型的性能，驚喜地發現：從自然圖像、音頻、視頻理解到數學推理，Gemini Ultra在32個常用的學術基準的30個上，已經超越GPT-4！

而在MMLU（大規模多任務語言理解）測試中，Gemini Ultra以90.0%的高分，首次超過了人類專家。

Gemini是第一個在MMLU（大規模多任務語言理解）上超越人類專家的模型

MMLU測試包括57個學科，如數學、物理、歷史、法律、醫學和倫理，旨在考察世界知識和解決問題的能力。

在這50多個不同學科領域中的每一箇中，Gemini都和這些領域最好的專家一樣好。

谷歌爲MMLU設定的新基準，讓Gemini在回答複雜問題前，能夠更仔細地發揮推理能力，相比於僅依賴於直覺反應，這種方法帶來了顯著提升。

在新的MMMU基準測試中，Gemini Ultra也取得了59.4%的高分，這一測試包括了跨越不同領域的多模態任務，這些任務需要深入的推理過程。

圖像基準測試中，Gemini Ultra的表現也超過了之前的領先模型，而且，這一成就是在沒有OCR系統幫助的情況下實現的！

種種測試表明，Gemini在多模態處理上表現出了強大的能力，並且在更復雜的推理上也有着極大潛力。

詳情可參閱Gemini技術報告：

報告地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

中杯、大杯、超大杯！

Gemini Ultra是谷歌迄今爲止創建的最強大LLM最大，能夠完成高度複雜的任務，主要面向數據中心和企業級應用。

Gemini Pro是性能最好的模型，用於廣泛的任務。它會爲許多谷歌的AI服務提供動力，並且從今天起，成爲Bard的支柱。

Gemini Nano是最高效的模型，用於設備端任務，可以在安卓設備上本地和離線運行，Pixel 8 Pro的用戶就能馬上體驗到。其中，Nano-1的參數爲1.8B，Nano-2爲3.25B。

Gemini最基本的模型能做到文本輸入和文本輸出，但像Gemini Ultra這樣更強大的模型，則可以同時處理圖像、視頻和音頻。

不僅如此，Gemini甚至還能學會做動作和觸摸這種更像機器人的功能！

以後，Gemini會獲得更多的感官，變得更加有意識，更加準確。

雖然幻覺問題仍然不可避免，但模型知道的越多，性能就會越好。

文本、圖像、音頻精準理解

Gemini 1.0經過訓練，可以同時識別和理解文本、圖像、音頻等各種形式的輸入內容，因此它也能更好地理解細微的信息，回答與複雜主題相關的各類問題。

比如，用戶先是上傳了一段非英語的音頻，然後又錄了一段英語的音頻來提問。

要知道，一般設計音頻的歸納，都是用文字輸入prompt。而Gemini卻可以同時處理兩段不同語言的音頻，精準輸出所需要的摘要內容。

更厲害的是，如果我想做一個煎蛋，不僅可以用語音問Gemini，還可以把手頭有的食材拍個照片一併發過去。

然後，Gemini就會結合音頻中發送的需求，以及配圖中的食材，手把手教你該怎麼做好一個煎蛋。

甚至，每完成一步，都可以拍個照片，而Gemini則可以根據實際進度繼續指導下一步該做什麼。

手癌星人、不會做飯星人都有救了！

而且，這項能力還這使Gemini特別擅長解釋數學和物理等複雜學科的推理問題。

比如，家長想在輔導孩子作業的時候省點事，該怎麼辦呢？

答案很簡單，直接拍張圖上去，Gemini的推理能力足以解決數學、物理等各類理科問題。

針對其中任何一個步驟，都可以追問Gemini來獲得更具體的解釋。

甚至，還可以就出錯的點，直接讓Gemini輸出一個和出錯類型相似的題目鞏固一下。

複雜推理輕鬆搞定

此外，Gemini 1.0具有的多模態推理能力，可以更好地理解複雜的書面和視覺信息。這使得它在發掘埋藏在海量的數據中難以辨別的知識方面具有優越的性能。

通過閱讀、過濾和理解信息，Gemini 1.0還能夠從成千上萬的文檔中提取出獨到的觀點，從而助力從科學到金融等衆多領域實現新的突破。

AlphaCode 2：編碼能力超85%人類選手

當然，基準測試終究只是測試，對Gemini的真正考驗，是想要用它來寫代碼的用戶。

寫代碼，就是谷歌爲Gemini打造的殺手級功能。

Gemini 1.0模型不僅可以理解、解釋和生成世界上最主流的編程語言，比如Python、Java、C++和Go的高質量代碼。同時它能夠跨語言工作，並對複雜信息進行推理。

從這一點看，Gemini毫無疑問會成爲世界領先的編程基礎模型之一。

兩年前，谷歌推出過一款叫做AlphaCode的產品，它也是第一個在編程競賽中達到具有競爭力水平的AI代碼生成系統。

而基於定製版的Gemini，谷歌推出了更先進的代碼生成系統——AlphaCode 2。

在面對不僅涉及編程，還涉及複雜的數學和計算機科學理論等領域的問題時，AlphaCode 2都表現出了卓越的性能。

在與初代AlphaCode同樣的測試平台上，谷歌的開發人員也對AlphaCode 2進行了測試。

結果顯示，新模型展現出了顯著的進步，解決的問題數幾乎是之前AlphaCode的兩倍。

其中，AlphaCode 2編程的性能超過了85%的人類程序員，相比之下，AlphaCode只超過了約50%的程序員。

不僅如此，當人類程序員與AlphaCode 2協作時，人類程序員爲代碼樣例設定特定的要求，Alphacode 2的性能會進一步提升。

AlphaCode 2的運作依託於強大的LLM，並結合了專爲競賽編程設計的先進搜索和重排機制。

如下圖所示，新的模型主要由以下幾部分組成：

- 多個策略模型，用於爲每個問題生成各自的代碼樣本；
- 採樣機制，能夠生成多樣化的代碼樣本，以在可能的程序解決方案中進行搜索；
- 過濾機制，移除那些不符合問題描述的代碼樣本；
- 聚類算法，將語義上相似的代碼樣本進行分組，以減少重複；
- 評分模型，用於從10個代碼樣本集群中篩選出最優解。

詳情可參閱Alpha Code 2技術報告：

報告地址：https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

更可靠、更高效、可擴展

對谷歌來說同樣重要的是，Gemini顯然是一個效率更高、更可靠、可擴展的模型。

它是在谷歌自己的張量處理單元上訓練的，比谷歌以前的模型（如PaLM）運行起來更快、更便宜。

開發人員使用了谷歌內部研發的張量處理單元TPU v4和v5e，在AI優化的基礎設施上對Gemini 1.0進行了大規模的訓練。

而可靠、可擴展的訓練模型和最高效的服務模型，就是谷歌做出Gemini的重要目標。

在TPU上，Gemini的運行速度明顯快於早期規模較小、能力較弱的模型。這些定製設計的AI加速器是谷歌大模型產品的核心。

要知道，這些產品爲搜索、YouTube、Gmail、谷歌地圖、Google Play和Android等數十億用戶提供服務。它們還幫助了世界各地的科技公司經濟、高效地訓練大模型。

除了Gemini，谷歌在今天還發布了迄今爲止最強大、最高效，並且可擴展的TPU系統——Cloud TPU v5p，專爲訓練尖端的AI模型而設計。

新一代TPU將加速Gemini的發展，幫助開發人員和企業客戶更快地訓練大規模生成式AI模型，開發出新產品和新功能。

Gemini，讓谷歌再次偉大？

顯然，在Pichai和Hassabis看來，Gemini的發佈僅僅是一個開始——一個更大的項目即將開啓。

Gemini是谷歌一直在等待的模式，在OpenAI和ChatGPT接管世界後，Gemini是谷歌探索一年得出的結論。

發佈「紅色警報」後，谷歌一直在追趕，但兩人都表示，不願意爲了跟上步伐而走得太快，尤其是我們越來越接近AGI。

Gemini是否會改變世界？最好的情況是，它能幫谷歌在生成式AI競賽中趕上OpenAI。

但劈柴、Hassabis等人似乎都認爲，這是谷歌真正偉大的開始。

今天發佈的技術報告，沒有透露架構細節、模型參數或訓練數據集。

艾倫人工智能研究所前CEO Oren Etzioni說，「沒有理由懷疑Gemini在這些基準上比GPT-4更好，但沒準GPT-5會比Gemini做得更好。」

打造像Gemini這樣的巨量模型，可能需要花費數億美元，但對於在通過雲提供AI佔據主導地位的公司來說，最終的回報可能是數十億甚至數萬億美元。

「這是一場不能失敗，必須打贏的戰爭。」

編輯/new

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

追蹤AI最新趨勢

谷歌深夜放复仇杀器Gemini，最强原生多模态史诗级碾压GPT-4！语言理解首超人类

谷歌深夜放復仇殺器Gemini，最強原生多模態史詩級碾壓GPT-4！語言理解首超人類

多模态的史诗级创新

首次超越人类，大幅碾压GPT-4

中杯、大杯、超大杯！

文本、图像、音频精准理解

复杂推理轻松搞定

AlphaCode 2：编码能力超85%人类选手

更可靠、更高效、可扩展

多模態的史詩級創新

首次超越人類，大幅碾壓GPT-4

中杯、大杯、超大杯！

文本、圖像、音頻精準理解

複雜推理輕鬆搞定

AlphaCode 2：編碼能力超85%人類選手

更可靠、更高效、可擴展

追蹤AI最新趨勢

谷歌深夜放复仇杀器Gemini，最强原生多模态史诗级碾压GPT-4！语言理解首超人类

谷歌深夜放復仇殺器Gemini，最強原生多模態史詩級碾壓GPT-4！語言理解首超人類

多模态的史诗级创新

首次超越人类，大幅碾压GPT-4

中杯、大杯、超大杯！

文本、图像、音频精准理解

复杂推理轻松搞定

AlphaCode 2：编码能力超85%人类选手

更可靠、更高效、可扩展

多模態的史詩級創新

首次超越人類，大幅碾壓GPT-4

中杯、大杯、超大杯！

文本、圖像、音頻精準理解

複雜推理輕鬆搞定

AlphaCode 2：編碼能力超85%人類選手

更可靠、更高效、可擴展

風險及免責聲明

聲明