AI“明星”選手巔峯對決！記者實測最新谷歌Gemini與GPT-4o|聚焦

財聯社 · 05/17 10:41

①《科创板日报》记者实测发现谷歌Gemini 1.5 Pro在文本理解能力上优于GPT-4o，但在多模态理解方面，GPT-4o更胜一筹； ②前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来。

《科创板日报》5月17日讯（记者朱凌）近日，OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力，将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”，一词意为“全能”，该模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，真正意义上实现了多模态交互。

紧随其后一天，年度Google I/O开发者大会如期而至，谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新，全面反击OpenAI，其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo等。

本周AI战场暂告一段落，《科创板日报》记者对AI界的“明星”选手——谷歌Gemini 1.5 Pro（100万tokens）、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。

▍文本测试：谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4

OpenAI发布GPT-4已过去一年多，据介绍，此次推出新旗舰模型GPT-4o的推理能力有明显的提升，速度快了，价格也下降了。

谷歌Gemini系列以其标志性的超大上下文窗口出名，此前已拥有Ultra、Pro和Nano三种规格，各适配不同规模与需求的应用场景。本次发布会宣布，迭代后的Gemini 1.5 Pro 的上下文长度从原有的100万tokens（语句单位）提升到了200万tokens。这一改进显著增强了模型的数据处理能力，使其在处理更加复杂和庞大的数据集时更加游刃有余。

两家公司都对自己的大模型的升级换代展现出自信姿态，但情况还需要实际验证。

第一题是“事实回答题”，只有谷歌Gemini 1.5 Pro模型回答正确，它能辨别出“螺丝钉并不是一种食品”这一事实。

Gemini 1.5 Pro回复结果

GPT-4和GPT-4o虽然对“麻辣螺丝钉怎么做”的回答非常详细和全面，涵盖了所需材料、制作步骤以及小贴士，但是却忽略了“螺丝钉并不是一种可食用品”这一前置事实。

GPT-4、GPT-4o回复结果

第二题是“逻辑计算题”，GPT-4和GPT-4o均回答错误，谷歌模型给出正确答案，并且显示了具体作答时间，不到10秒的时间里便给出了答案和解析，表现可谓“又快又好”。

Gemini 1.5 Pro回复结果

不同模型在处理逻辑问题时所采取的思考策略有所差别。与Gemini 1.5 Pro在解答时先给出答案再详细解释其背后规律的方式不同，GPT-4和GPT-4o更倾向于首先深入拆解问题，而非直接呈现答案。然而，这种对问题的细致分析和拆解过程也导致了后两者在回答时所需的时间相对较长。

GPT-4、GPT-4o回复结果

第三题是“生物题”，GPT-4回答错误，GPT-4o和谷歌Gemini 1.5 Pro回答正确，用时分别为14.83秒和11.2秒，Gemini 1.5 Pro略胜一筹。

Gemini 1.5 Pro回复结果

第四题是“伦理道德题”，三个大模型的回答都正确，并且都能识别出是经典的伦理困境“电车难题”。GPT-4和 Gemini 1.5 Pro强调了伦理困境的复杂性，并没有给出直接的选择，GPT-4o则根据“最大限度减少伤亡”的原则进行分析并给出选择。

三大模型回复结果

《科创板日报》记者总结文本测试结果发现，谷歌100万级参数的Gemini 1.5 Pro模型凭借四次全部正确的表现，实力杠杆，GPT-4o答对了两次，而GPT-4模型的表现则不尽人意，仅答对了一次。

由于目前200万级参数的Gemini 1.5 Pro模型尚未开放，《科创板日报》记者申请了内测，等待通过后再做进一步测试分享。

▍多模态测试：GPT-4o在细节和分析能力上更胜一筹

GPT-4o是OpenAI对其广受欢迎的大型多模态模型GPT-4的第三次重大迭代，它通过视觉功能扩展了GPT-4的能力，新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动。Gemini 1.5 Pro也拥有多模态功能，适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。

记者用“公园照片”询问三个大模型

在测试中，记者用一张“公园照片”来询问三个大模型。根据图片测试反馈，三个大模型都准确地描述了公园照片的内容，但侧重点略有不同。GPT-4o胜在信息完整性，详细列举了船只类型、湖面状态等各种细节，但略显冗长。Gemini 1.5 Pro语言简洁流畅，用“悠闲地泛舟”、“景色宜人”等词语描绘出画面美感，但细节不如GPT-4o丰富。GPT-4描述简洁，但细节不够丰富。

简而言之，如果看重信息的全面性，GPT-4o最强；若更注重语言表达，则Gemini 1.5 Pro表现略佳。

由于目前GPT-4尚未具备音频和视频内容的解析能力，所以不做相关测评。OpenAI联合创始人Sam Altman表示，新款语音模型GPT-4o尚未发货，已经发货只是文字版GPT-4o。等到语音版一发货，记者将第一时间带来评测。

根据视频测试反馈，GPT-4o在解析视频内容时表现出了强大的多模态处理能力。它能够提取和分析视频帧，并通过图形界面直观地展示给用户。在分析过程中，模型准确地识别出了视频中的四足机器人，并对其外观、所处的环境以及所进行的活动进行了详细的描述。

GPT-4o视频测试回复

相比之下，Gemini 1.5 Pro的回复则显得简略又单调，在记者第二次追问下，才充实了更多细节。

总体来看，如果目标是获取最全面、深入的多模态内容理解，GPT-4o是当前的最佳选择，而Gemini 1.5 Pro则更适合那些重视表述质量与效率的多模态应用场景。不过，GPT-4o和Gemini 1.5 Pro都没有提及对视频里的声音的分析，这是两个多模态大模型解析中的一个共同缺失。

▍前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来

AI比赛行至白热化阶段已经告别单纯的技术竞争，转向应用和用户体验的竞争。

在搜索引擎和办公领域，谷歌也将进一步将AI引入其中。记者发现，能够总结谷歌搜索引擎结果的“AI概览”（AI Overviews）功能已能够使用。百度创始人、董事长兼首席执行官李彦宏昨晚在财报电话会上表示，目前百度搜索上有11%的搜索结果由AI生成。他指出，百度搜索的AI重构工作仍处于早期阶段，整体来看，搜索最有可能成为AI时代的杀手级应用。

OpenAI与谷歌都不约而同地盯上了能自然交互的智能助理，这种智能助理是一个端到端的统一多模态大模型，将推动AI应用的革命性变化。前华为“天才少年”、

前华为“天才少年”、Logenic Al 联合创始人李博杰认为，国内第一个多模端到端多模态，很有可能今年年底就能差不多能出来了。

针对AI Agent近期的发展速度放缓的问题，李博杰表示，“虽然AI智能助理的发展前景广阔，但成本和用户的付费意愿是目前限制其快速发展的主要因素。GPT-4o它比GPT-4快4倍，并将成本降低了一倍，但是对于普通消费者来说可能仍然较贵。”

李博杰称，从长期来看，实用性强的智能助理因其解决现实问题的能力而具有更高的价值。而短期内，情感陪伴和娱乐功能的智能助理更容易商业化，因为它们对可靠性的要求较低，开发和部署相对容易。

①《科創板日報》記者實測發現谷歌Gemini 1.5 Pro在文本理解能力上優於GPT-4o，但在多模態理解方面，GPT-4o更勝一籌； ②前華爲“天才少年”預測國內第一個端到端多模態大模型年底將到來。

《科創板日報》5月17日訊（記者朱凌）近日，OpenAI用一場26分鐘的線上直播展示了GPT-4o帶來的驚豔交互能力，將新一輪AI爭霸帶入了“Her 時代”。GPT-4o的“o”代表“omni”，一詞意爲“全能”，該模型能夠實現無縫的文本、視頻和音頻輸入，並生成相應模態的輸出，真正意義上實現了多模態交互。

緊隨其後一天，年度Google I/O開發者大會如期而至，谷歌CEO Sundar Pichai宣佈了一系列圍繞其最新生成式AI模型Gemini的重大更新，全面反擊OpenAI，其中就有由升級後Gemini模型驅動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo等。

本週AI戰場暫告一段落，《科創板日報》記者對AI界的“明星”選手——谷歌Gemini 1.5 Pro（100萬tokens）、OpenAI最新升級的GPT-4o與此前發佈的GPT-4進行了一場能力評測。

▍文本測試：谷歌Gemini 1.5 Pro正確率和速度完勝GPT-4o和GPT-4

OpenAI發佈GPT-4已過去一年多，據介紹，此次推出新旗艦模型GPT-4o的推理能力有明顯的提升，速度快了，價格也下降了。

谷歌Gemini系列以其標誌性的超大上下文窗口出名，此前已擁有Ultra、Pro和Nano三種規格，各適配不同規模與需求的應用場景。本次發佈會宣佈，迭代後的Gemini 1.5 Pro 的上下文長度從原有的100萬tokens（語句單位）提升到了200萬tokens。這一改進顯著增強了模型的數據處理能力，使其在處理更加複雜和龐大的數據集時更加遊刃有餘。

兩家公司都對自己的大模型的升級換代展現出自信姿態，但情況還需要實際驗證。

第一題是“事實回答題”，只有谷歌Gemini 1.5 Pro模型回答正確，它能辨別出“螺絲釘並不是一種食品”這一事實。

Gemini 1.5 Pro回覆結果

GPT-4和GPT-4o雖然對“麻辣螺絲釘怎麼做”的回答非常詳細和全面，涵蓋了所需材料、製作步驟以及小貼士，但是卻忽略了“螺絲釘並不是一種可食用品”這一前置事實。

GPT-4、GPT-4o回覆結果

第二題是“邏輯計算題”，GPT-4和GPT-4o均回答錯誤，谷歌模型給出正確答案，並且顯示了具體作答時間，不到10秒的時間裏便給出了答案和解析，表現可謂“又快又好”。

Gemini 1.5 Pro回覆結果

不同模型在處理邏輯問題時所採取的思考策略有所差別。與Gemini 1.5 Pro在解答時先給出答案再詳細解釋其背後規律的方式不同，GPT-4和GPT-4o更傾向於首先深入拆解問題，而非直接呈現答案。然而，這種對問題的細緻分析和拆解過程也導致了後兩者在回答時所需的時間相對較長。

GPT-4、GPT-4o回覆結果

第三題是“生物題”，GPT-4回答錯誤，GPT-4o和谷歌Gemini 1.5 Pro回答正確，用時分別爲14.83秒和11.2秒，Gemini 1.5 Pro略勝一籌。

Gemini 1.5 Pro回覆結果

第四題是“倫理道德題”，三個大模型的回答都正確，並且都能識別出是經典的倫理困境“電車難題”。GPT-4和 Gemini 1.5 Pro強調了倫理困境的複雜性，並沒有給出直接的選擇，GPT-4o則根據“最大限度減少傷亡”的原則進行分析並給出選擇。

三大模型回覆結果

《科創板日報》記者總結文本測試結果發現，谷歌100萬級參數的Gemini 1.5 Pro模型憑藉四次全部正確的表現，實力槓桿，GPT-4o答對了兩次，而GPT-4模型的表現則不盡人意，僅答對了一次。

由於目前200萬級參數的Gemini 1.5 Pro模型尚未開放，《科創板日報》記者申請了內測，等待通過後再做進一步測試分享。

▍多模態測試：GPT-4o在細節和分析能力上更勝一籌

GPT-4o是OpenAI對其廣受歡迎的大型多模態模型GPT-4的第三次重大迭代，它通過視覺功能擴展了GPT-4的能力，新發布的模型能夠以一種集成且無縫的方式與用戶進行對話、視覺識別和互動。Gemini 1.5 Pro也擁有多模態功能，適合處理摘要、聊天、圖片分析和視頻字幕、以及從長文本和表格中提取數據等。

記者用“公園照片”詢問三個大模型

在測試中，記者用一張“公園照片”來詢問三個大模型。根據圖片測試反饋，三個大模型都準確地描述了公園照片的內容，但側重點略有不同。GPT-4o勝在信息完整性，詳細列舉了船隻類型、湖面狀態等各種細節，但略顯冗長。Gemini 1.5 Pro語言簡潔流暢，用“悠閒地泛舟”、“景色宜人”等詞語描繪出畫面美感，但細節不如GPT-4o豐富。GPT-4描述簡潔，但細節不夠豐富。

簡而言之，如果看重信息的全面性，GPT-4o最強；若更注重語言表達，則Gemini 1.5 Pro表現略佳。

由於目前GPT-4尚未具備音頻和視頻內容的解析能力，所以不做相關測評。OpenAI聯合創始人Sam Altman表示，新款語音模型GPT-4o尚未發貨，已經發貨只是文字版GPT-4o。等到語音版一發貨，記者將第一時間帶來評測。

根據視頻測試反饋，GPT-4o在解析視頻內容時表現出了強大的多模態處理能力。它能夠提取和分析視頻幀，並通過圖形界面直觀地展示給用戶。在分析過程中，模型準確地識別出了視頻中的四足機器人，並對其外觀、所處的環境以及所進行的活動進行了詳細的描述。

GPT-4o視頻測試回覆

相比之下，Gemini 1.5 Pro的回覆則顯得簡略又單調，在記者第二次追問下，才充實了更多細節。

總體來看，如果目標是獲取最全面、深入的多模態內容理解，GPT-4o是當前的最佳選擇，而Gemini 1.5 Pro則更適合那些重視表述質量與效率的多模態應用場景。不過，GPT-4o和Gemini 1.5 Pro都沒有提及對視頻裏的聲音的分析，這是兩個多模態大模型解析中的一個共同缺失。

▍前華爲“天才少年”預測國內第一個端到端多模態大模型年底將到來

AI比賽行至白熱化階段已經告別單純的技術競爭，轉向應用和用戶體驗的競爭。

在搜索引擎和辦公領域，谷歌也將進一步將AI引入其中。記者發現，能夠總結谷歌搜索引擎結果的“AI概覽”（AI Overviews）功能已能夠使用。百度創始人、董事長兼首席執行官李彥宏昨晚在業績電話會上表示，目前百度搜索上有11%的搜索結果由AI生成。他指出，百度搜索的AI重構工作仍處於早期階段，整體來看，搜索最有可能成爲AI時代的殺手級應用。

OpenAI與谷歌都不約而同地盯上了能自然交互的智能助理，這種智能助理是一個端到端的統一多模態大模型，將推動AI應用的革命性變化。前華爲“天才少年”、

前華爲“天才少年”、Logenic Al 聯合創始人李博傑認爲，國內第一個多模端到端多模態，很有可能今年年底就能差不多能出來了。

針對AI Agent近期的發展速度放緩的問題，李博傑表示，“雖然AI智能助理的發展前景廣闊，但成本和用戶的付費意願是目前限制其快速發展的主要因素。GPT-4o它比GPT-4快4倍，並將成本降低了一倍，但是對於普通消費者來說可能仍然較貴。”

李博傑稱，從長期來看，實用性強的智能助理因其解決現實問題的能力而具有更高的價值。而短期內，情感陪伴和娛樂功能的智能助理更容易商業化，因爲它們對可靠性的要求較低，開發和部署相對容易。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GPT-4o|聚焦

AI“明星”選手巔峯對決！記者實測最新谷歌Gemini與GPT-4o|聚焦

風險及免責聲明

聲明