谷歌最強開源模型Gemma 2發佈！270億參數奇襲Llama 3，單張A100可全精度推理

智東西 · 06/28 09:00

智东西（公众号：zhidxcom）

作者 | ZeR0

编辑 | 漠影

智东西6月28日报道，昨晚，谷歌在I/O Connect大会上放大招，公布其新一代最强开源模型——Gemma 2。

Gemma 2有90亿（9B）和270亿（27B）两种参数规模可用。27B模型训练了13T tokens，9B是8T tokens，都拥有8192上下文窗口，可在Google AI Studio中使用。26亿参数（2.6B）模型将很快发布，小到可以在手机本地运行。

在盲测大语言模型竞技场LMSYS Chatbot Arena中，270亿参数的Gemma 2指令微调模型击败了拥有700亿参数的Llama 3，并超过Nemotron 4 340B、Claude 3 Sonnet、Command R+、Qwen 72B等模型，在所有开源权重的模型中位列第一；9B模型则是当前15B以下参数的模型中成绩最好的。

谷歌在今年早些时候推出轻量级先进开源模型Gemma，只有2B和7B参数版本，下载量超过1000万次。Gemma 2涵盖从20亿到270亿参数，比第一代性能更高、推理效率更高，并且显著改进安全性。这是该系列模型迈出的一大步。

270亿参数的Gemma 2提供了与两倍以上参数的模型竞争的替代方案，提供了直到去年12月才可能实现的性能，而且可以在单个英伟达A100/H100 Tensor Core GPU或TPU主机上以全精度高效运行推理，大大降低了部署成本。

在Hugging Face的基准上，谷歌将Gemma 2 27B与具有类似尺寸的Qwen1.5 32B进行了比较，还报告了Llama 3 70B的性能。Gemma 2 27B的尺寸只有Llama 3 70B的40%，训练数据少到Llama 3 70B的2/3。结果显示，Gemma 2 27B优于Qwen1.5 32B，比Llama 3 70B低几个百分点。

一、重新设计架构，Gemma 2有三大特点

Gemma 2的技术报告共15页，介绍了其架构的多项技术改进，包括交替使用局部-全局注意力机制和分组查询注意力，还使用知识蒸馏而不是下一个token预测来帮助训练较小的2B和9B模型。

▲Gemma模型的参数量

2.6B模型在一个TPUv5e集群的2x16x16配置上训练，总共用了512张芯片。9B模型在TPUv4集群的8x16x32配置上训练，总共4096张芯片。27B模型在TPUv5p集群的8x24x32配置上训练，总共用了6144张芯片。

▲用切分训练基础设施

针对更高的性能和推理效率，谷歌在重新设计的架构上构建了Gemma 2。该模型采用与Gemma 1.1相似的算法配方，但用了更多的teacher监督并执行了模型合并。在编程、数学、推理、安全等能力上，Gemma 2都比1.1版本提升显著。

▲主要模型参数及设计选择的概述

结果，Gemma 2模型在其规模上提供了最佳性能，甚至提供了与大2-3倍的模型竞争的替代方案。以下是其突出的特点：

（1）卓越性能：Gemma 2 27B在其同类大小中提供了最佳性能，甚至提供了与两倍以上大小的模型竞争的替代方案。Gemma 2 9B模型也提供了领先的性能，超过了Llama 3 8B和其他同类大小的开源模型。

谷歌在各种基准上比较2.6B、9B及27B模型，报告了可以与Llama 3进行比较的8个基准测试的平均性能，以及所有基准测试的平均性能。Llama 3 8B的数据来自HuggingFace leaderboard或其博客。

在MMLU上，9B模型得分为71.3，27B模型为75.2；在AGIEval上，9B模型得分52.8，27B模型得分55.1；在HumanEval上，9B模型得分40.2，27B模型得分51.8。

（2）无与伦比的效率和成本节省：Gemma 227B模型设计用于在单个谷歌云TPU主机、英伟达A100 80GB Tensor Core GPU或H100 Tensor Core GPU上高效运行全精度推理，在保持高性能的同时显著降低成本。这使得AI部署更加易于访问和经济实惠。

（3）跨硬件的快速推理：Gemma 2经过优化，可以在各种硬件上以令人难以置信的速度运行，硬件从功能强大的游戏笔记本电脑和高端台式机到基于云的设置。在Google AI Studio中以全精度试用Gemma 2，在CPU上使用Gemma.cpp的量化版本解锁本地性能，或在家用计算机上通过Hugging Face Transformers在英伟达RTX或GeForce RTX上试用。

二、支持商业化，兼容广泛框架，方便部署

Gemma 2为开发者和研究人员构建，其设计更容易集成到工作流程中：

（1）开放且可访问：与原始Gemma模型一样，Gemma 2也是根据谷歌具有商业友好的Gemma许可发布的，允许开发人员和研究人员分享和商业化他们的创新。

（2）广泛的框架兼容性：Gemma 2兼容主要的AI框架，如Hugging Face Transformers，以及通过原生Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama的JAX、PyTorch和TensorFlow。此外，Gemma优化了英伟达TensorRT-LLM以在英伟达加速基础设施上运行或作为英伟达NIM推理微服务运行。用户可以使用Keras和Hugging Face进行微调。谷歌正在积极努力实现更多参数高效的微调选项。

（3）轻松部署：从下个月开始，谷歌云客户将能轻松在Vertex AI上部署和管理Gemma 2。

新的Gemma Cookbook是一个包含实用示例和指南的集合，引导用户构建自己的应用程序并为特定任务微调Gemma 2模型。

三、提供负责任的AI开发资源，严格测试评估模型安全性

在负责任的AI开发方面，谷歌提供负责任地构建和部署AI所需的资源，包括负责任的生成式AI工具包。最近开源的LLM Comparator帮助开发者和研究人员深入评估语言模型。

即日起，用户可使用配套的Python库与自己的模型和数据进行比较评估，并在应用程序中可视化结果。此外，谷歌正在积极致力于开源文本水印技术SynthID，用于Gemma模型。

在训练Gemma 2时，谷歌遵循内部安全流程，过滤了训练前的数据，并针对一套全面的指标进行了严格的测试和评估，以识别和减轻潜在的偏见和风险。谷歌在与安全性和代表性危害相关的大量公共基准上公布了其结果。

▲Gemma 2 IT模型和Gemma 1.1 IT模型的安全学术基准结果

结语：大模型研发趋于实用主义

谷歌Gemma 2的研究进展反映了当前大模型研究趋势，即探索用更轻量级的、更实用的模型来实现更强的性能，并确保易部署，以更好地满足不同的用户需求。

谷歌为开发者和研究人员提供了使用这些模型的多种途径。Gemma 2现可在Google AI Studio中使用，可在没有硬件要求的情况下测试其270亿参数的全部性能，也可以从Kaggle和Hugging Face Models下载Gemma 2的模型权重，Vertex AI Model Garden即将推出。

通过Gemma 2，谷歌证明了蒸馏是训练此类模型的有效方法，基于输出概率的训练能够比纯粹的下一个token预测产生更多的效果。模型仍存在局限性，需要未来研究来持续优化事实性、对抗性攻击的鲁棒性以及推理和一致性。

为支持研究和开发，Gemma 2还可通过Kaggle免费获得，或通过Colab笔记本的免费层获得。首次使用谷歌云服务的用户可能有资格获得300美元的积分。学术研究人员可以申请Gemma 2学术研究计划，以获得谷歌云积分，加速对Gemma 2的研究。申请截止日期为8月9日。

来源：谷歌DeepMind

智東西（公衆號：zhidxcom）

作者 | ZeR0

編輯 | 漠影

智東西6月28日報道，昨晚，谷歌在I/O Connect大會上放大招，公佈其新一代最強開源模型——Gemma 2。

Gemma 2有90億（9B）和270億（27B）兩種參數規模可用。27B模型訓練了13T tokens，9B是8T tokens，都擁有8192上下文窗口，可在Google AI Studio中使用。26億參數（2.6B）模型將很快發佈，小到可以在手機本地運行。

在盲測大語言模型競技場LMSYS Chatbot Arena中，270億參數的Gemma 2指令微調模型擊敗了擁有700億參數的Llama 3，並超過Nemotron 4 340B、Claude 3 Sonnet、Command R+、Qwen 72B等模型，在所有開源權重的模型中位列第一；9B模型則是當前15B以下參數的模型中成績最好的。

谷歌在今年早些時候推出輕量級先進開源模型Gemma，只有2B和7B參數版本，下載量超過1000萬次。Gemma 2涵蓋從20億到270億參數，比第一代性能更高、推理效率更高，並且顯著改進安全性。這是該系列模型邁出的一大步。

270億參數的Gemma 2提供了與兩倍以上參數的模型競爭的替代方案，提供了直到去年12月才可能實現的性能，而且可以在單個英偉達A100/H100 Tensor Core GPU或TPU主機上以全精度高效運行推理，大大降低了部署成本。

在Hugging Face的基準上，谷歌將Gemma 2 27B與具有類似尺寸的Qwen1.5 32B進行了比較，還報告了Llama 3 70B的性能。Gemma 2 27B的尺寸只有Llama 3 70B的40%，訓練數據少到Llama 3 70B的2/3。結果顯示，Gemma 2 27B優於Qwen1.5 32B，比Llama 3 70B低幾個百分點。

一、重新設計架構，Gemma 2有三大特點

Gemma 2的技術報告共15頁，介紹了其架構的多項技術改進，包括交替使用局部-全局注意力機制和分組查詢注意力，還使用知識蒸餾而不是下一個token預測來幫助訓練較小的2B和9B模型。

▲Gemma模型的參數量

2.6B模型在一個TPUv5e集群的2x16x16配置上訓練，總共用了512張芯片。9B模型在TPUv4集群的8x16x32配置上訓練，總共4096張芯片。27B模型在TPUv5p集群的8x24x32配置上訓練，總共用了6144張芯片。

▲用切分訓練基礎設施

針對更高的性能和推理效率，谷歌在重新設計的架構上構建了Gemma 2。該模型採用與Gemma 1.1相似的算法配方，但用了更多的teacher監督並執行了模型合併。在編程、數學、推理、安全等能力上，Gemma 2都比1.1版本提升顯著。

▲主要模型參數及設計選擇的概述

結果，Gemma 2模型在其規模上提供了最佳性能，甚至提供了與大2-3倍的模型競爭的替代方案。以下是其突出的特點：

（1）卓越性能：Gemma 2 27B在其同類大小中提供了最佳性能，甚至提供了與兩倍以上大小的模型競爭的替代方案。Gemma 2 9B模型也提供了領先的性能，超過了Llama 3 8B和其他同類大小的開源模型。

谷歌在各種基準上比較2.6B、9B及27B模型，報告了可以與Llama 3進行比較的8個基準測試的平均性能，以及所有基準測試的平均性能。Llama 3 8B的數據來自HuggingFace leaderboard或其博客。

在MMLU上，9B模型得分爲71.3，27B模型爲75.2；在AGIEval上，9B模型得分52.8，27B模型得分55.1；在HumanEval上，9B模型得分40.2，27B模型得分51.8。

（2）無與倫比的效率和成本節省：Gemma 227B模型設計用於在單個谷歌雲TPU主機、英偉達A100 80GB Tensor Core GPU或H100 Tensor Core GPU上高效運行全精度推理，在保持高性能的同時顯著降低成本。這使得AI部署更加易於訪問和經濟實惠。

（3）跨硬件的快速推理：Gemma 2經過優化，可以在各種硬件上以令人難以置信的速度運行，硬件從功能強大的遊戲筆記本電腦和高端臺式機到基於雲的設置。在Google AI Studio中以全精度試用Gemma 2，在CPU上使用Gemma.cpp的量化版本解鎖本地性能，或在家用計算機上通過Hugging Face Transformers在英偉達RTX或GeForce RTX上試用。

二、支持商業化，兼容廣泛框架，方便部署

Gemma 2爲開發者和研究人員構建，其設計更容易集成到工作流程中：

（1）開放且可訪問：與原始Gemma模型一樣，Gemma 2也是根據谷歌具有商業友好的Gemma許可發佈的，允許開發人員和研究人員分享和商業化他們的創新。

（2）廣泛的框架兼容性：Gemma 2兼容主要的AI框架，如Hugging Face Transformers，以及通過原生Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama的JAX、PyTorch和TensorFlow。此外，Gemma優化了英偉達TensorRT-LLM以在英偉達加速基礎設施上運行或作爲英偉達NIM推理微服務運行。用戶可以使用Keras和Hugging Face進行微調。谷歌正在積極努力實現更多參數高效的微調選項。

（3）輕鬆部署：從下個月開始，谷歌雲客戶將能輕鬆在Vertex AI上部署和管理Gemma 2。

新的Gemma Cookbook是一個包含實用示例和指南的集合，引導用戶構建自己的應用程序併爲特定任務微調Gemma 2模型。

三、提供負責任的AI開發資源，嚴格測試評估模型安全性

在負責任的AI開發方面，谷歌提供負責任地構建和部署AI所需的資源，包括負責任的生成式AI工具包。最近開源的LLM Comparator幫助開發者和研究人員深入評估語言模型。

即日起，用戶可使用配套的Python庫與自己的模型和數據進行比較評估，並在應用程序中可視化結果。此外，谷歌正在積極致力於開源文本水印技術SynthID，用於Gemma模型。

在訓練Gemma 2時，谷歌遵循內部安全流程，過濾了訓練前的數據，並針對一套全面的指標進行了嚴格的測試和評估，以識別和減輕潛在的偏見和風險。谷歌在與安全性和代表性危害相關的大量公共基準上公佈了其結果。

▲Gemma 2 IT模型和Gemma 1.1 IT模型的安全學術基準結果

結語：大模型研發趨於實用主義

谷歌Gemma 2的研究進展反映了當前大模型研究趨勢，即探索用更輕量級的、更實用的模型來實現更強的性能，並確保易部署，以更好地滿足不同的用戶需求。

谷歌爲開發者和研究人員提供了使用這些模型的多種途徑。Gemma 2現可在Google AI Studio中使用，可在沒有硬件要求的情況下測試其270億參數的全部性能，也可以從Kaggle和Hugging Face Models下載Gemma 2的模型權重，Vertex AI Model Garden即將推出。

通過Gemma 2，谷歌證明了蒸餾是訓練此類模型的有效方法，基於輸出概率的訓練能夠比純粹的下一個token預測產生更多的效果。模型仍存在侷限性，需要未來研究來持續優化事實性、對抗性攻擊的魯棒性以及推理和一致性。

爲支持研究和開發，Gemma 2還可通過Kaggle免費獲得，或通過Colab筆記本的免費層獲得。首次使用谷歌雲服務的用戶可能有資格獲得300美元的積分。學術研究人員可以申請Gemma 2學術研究計劃，以獲得谷歌雲積分，加速對Gemma 2的研究。申請截止日期爲8月9日。

來源：谷歌DeepMind

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

谷歌最强开源模型Gemma 2发布！270亿参数奇袭Llama 3，单张A100可全精度推理

谷歌最強開源模型Gemma 2發佈！270億參數奇襲Llama 3，單張A100可全精度推理

風險及免責聲明

聲明