一週五連發！AI大模型卷出新高度：阿里豆包穀歌哪家強？

雷科技 · 03/29 05:58

大模型又卷起来了。

3 月 28 日，阿里和字节不约而同地发布了各自大模型的重磅升级：一边是能看图、读视频、还会解数学题的视觉推理模型 QVQ-Max；另一边是豆包开启测试能边想边搜的新版「深度思考」。

图/ Qwen

同一天，两大国产大模型都按下了新一轮大模型更新的启动键，或许并非巧合。就在本周，各家主流大模型都发布了一轮更新：

DeepSeek 发布 V3-0324 新版本，推理、写作、编码能力再提升；Google 也推出了 Gemini-2.5-Pro，几乎获得了全方位的能力提升，还在 LMArena 榜单上打出了 40 分的绝对领先优势；OpenAI 也升级了 GPT-4o 图像生成功能，可控性和质量大幅进化。

各家基础模型又卷了起来。

从图像生成到视觉推理，从多模态到超长上下文，这一轮更新更像是一场全方位能力升级的排位赛——不仅卷功能、卷质量，还在卷「智能体时代」谁能提供更好的基础模型。

五大模型集体上新，

到底在卷什么？

1、阿里 QVQ-Max：视觉推理能力全开。

图/ 阿里

对于视觉推理模型，阿里的野心和意图都非常明显。早在去年 12 月，阿里 Qwen 团队就探索性地推出了 QVQ-72B-Preview 视觉推理模型。到了今年 1 月，又为雷鸟创新打造了用于雷鸟 V3 AI 眼镜的定制模型。

而 QVQ-Max 则是一次全面的升级，不仅能「看懂」图表、照片、甚至对视频内容进行理解，结合这些信息进行分析、推理，给出解决方案。比如，它能「看」出一组几何图形之间的角度关系，或是预测视频中下一秒可能发生的行为，在多模态基准测试上表现出色。

简单来说，QVQ-Max 对图片的解析能力非常强，无论是复杂的图表还是日常生活中随手拍的照片，它都能快速识别出关键元素，同时 QVQ-Max 还能进一步分析这些信息，并结合背景知识得出结论。

图/ Qwen

另外值得一提，QVQ-Max 目前已经上线了 Qwen Chat（），简单上手体验了下，对于照片的分析明显强于Qwen2.5-Max，甚至可以根据「左上角logo是中国银行」的提醒对应到照片中。

2、豆包新版「深度思考」，主打一个推理进阶。

几乎在同一时间，字节豆包也测试上线了新版「深度思考」能力，支持在思维链条展开的同时动态发起搜索，实现「边想边搜」。实际体验中，豆包会在思考过程中搜索资料，不断通过搜索补充信息再思考。

简单来说，用户提问如果涉及时间、地点、上下文变化或需要跨知识链的信息整合，豆包将不再「一次性搜一堆」，而是会在推理过程中多次触发搜索节点，不断修正和丰富自身的思维路径。

了解 QVQ-Max 的思考过程，图/豆包

比如我就尝试了让豆包深入了解下 QVQ-Max 模型，它就进行了两次搜索：第一次找到 16 篇参考资料，考虑到部分信息的缺失又进行了第二次搜索，找到 8 篇参考资料。

与 DeepSeek-R1、GPT 系列此前的工具调度能力相比，豆包此次升级虽并非开创性，但显然补上了此前在复杂问题求解方面的短板。

3、DeepSeek-V3 小版本升级，每一点都强了点。

图/ DeepSeek

DeepSeek-V3 最新发布的 0324 小版本升级，依旧延续了「小体积+大能力」的路线，主要借鉴了 DeepSeek-R1 在模型训练中使用的强化学习技术，针对推理、写作、编程能力做了进一步优化。

在前端开发能力上，新版模型能生成更具现代设计感的网页结构，在代码生成、转换和编辑能力上也更为稳定；写作方面则明显提升了中文中长篇文本的逻辑性和通顺度，更适合小说、剧本等内容创作。

4、Gemini 2.5 Pro：谷歌最强通用模型来了。

相比 DeepSeek-V3 ，Google 本周推出的 Gemini 2.5 Pro 是一次真正意义上的「大升级」，在编码、数学、视觉推理、搜索调度等能力上都得到了全面增强。简而言之，它正在将「大语言模型」推向「高可信度、多轮决策型智能体」的方向演进。

作为 Google 首个「全能型智能体底座」模型，Gemini 2.5 Pro 在对话能力上可以说是技压群雄，在机制相对比较合理的大模型竞技场 Chatbot Arena 上坐到了第一，并且大幅领先其他一众顶级大模型，包括 Grok-3、GPT-4.5、DeepSeek-R1。

图/ Chatbot Arena

编码方面也就是 Agentic Coding（智能体编码）弱于 Claude-3.7-Sonnet，但在 SWE-Bench Verified 编程测试中遥遥领先，尤其擅长创建复杂 web 应用程序和代理工具链。图像生成方面，Gemini 2.5 Pro 也有了巨大的进步，在 GPT-4o 升级图像生成能力之前也惊艳了不少人。

5、GPT-4o 原生图片生成，效果震撼全球网友。

单从热度上，GPT-4o（0326）的更新无疑是这一轮集体升级中最大的赢家。本周，OpenAI 为 GPT-4o 推出新一轮的升级，不仅提高了解决复杂技术和编码问题的能力，最出圈的可能还是原生的图像生成功能。

上线之后，无数网友在尝试新版本的图像生成功能，尤其是让 GPT-4o 用「吉卜力风格」重画更是塞满了我的社交媒体时间线。按照 OpenAI CEO 山姆・奥尔特曼（Sam Altman）的说法，GPT-4o 更新之后文生图需求剧增，甚至造成了 GPU 超负荷。

（ChatGPT 4o 根据照片生成，原始照片为哔哩哔哩在AWE2025的展台）

相比之前，此次更新显著提升了对复杂指令的理解能力和图文混排渲染的可控性，尤其是在生成图像中的文字内容上，准确率大幅提升。更重要的是，新版 GPT-4o 支持多轮对话过程中连续地修改图像风格与构图元素，可以逐步调优，视觉一致性也更强，用户交互体验也提升了一个维度。

智能体时代逼近，

大模型不约而同拼内功

如果说此前几个月大模型的更新节奏还略显零散，那么这次几乎同步到来的集体升级，已经清晰地释放出一个信号：大模型正在全方位补齐能力，并为智能体的爆发做准备。

过去一年，大模型行业主旋律是「多模态」和「高性能」，但这一轮更新之后可以发现，大厂们开始集体聚焦于三个方向：更强的推理链条、更高质量的内容生成、更接近智能体形态的系统调度能力。

推理能力，毫无疑问是重中之重。QVQ-Max 通过强化视觉推理打开了多模态理解的深层能力，豆包则借助「边想边搜」补上复杂问题处理的弱项，而 DeepSeek 和 Gemini 更是通过 RLHF（强化学习）强化了多轮决策和长期规划。

这些动作都指向一个目标：让大模型不止于「答题机器」，而是能够真正参与复杂任务和流程执行。

图/ Google

与此同时，内容生成的质量也普遍得到了提升。GPT-4o 升级图像生成功能背后，实则是文本到图像再到排版的全流程可控性提升；DeepSeek V3 新版也在强调从代码到长文本，内容生成质量的提高。

无论是图像生成、代码生成还是小说生成，今天的模型更强调「结构正确、风格统一、过程透明」，简言之就是大模型基础能力的夯实。

而在推理和基础能力之外，大模型还在快速补齐智能体所需的基础能力，就比如工具调用。不管是豆包「动态搜索」的工具调用能力，还是 Gemini 在 SWE-Bench 中构建多步骤程序的能力，本质上都是在为「模型能自主执行任务」做准备。

从这轮更新看，大模型的「智能体化」正在成为下一场大竞赛的起点，而基础能力的全方位补齐，正在让这场竞赛变得越来越像是「拼内功」的长期战役。

而且确信的是，ChatBot 不是大模型的终点，而是 AI 代理，或者说 AI 智能体才是大模型真正无处不在的入口。

End

大模型又捲起來了。

3 月 28 日，阿里和字節不約而同地發佈了各自大模型的重磅升級：一邊是能看圖、讀視頻、還會解數學題的視覺推理模型 QVQ-Max；另一邊是豆包開啓測試能邊想邊搜的新版「深度思考」。

圖/ Qwen

同一天，兩大國產大模型都按下了新一輪大模型更新的啓動鍵，或許並非巧合。就在本週，各家主流大模型都發佈了一輪更新：

DeepSeek 發佈 V3-0324 新版本，推理、寫作、編碼能力再提升；Google 也推出了 Gemini-2.5-Pro，幾乎獲得了全方位的能力提升，還在 LMArena 榜單上打出了 40 分的絕對領先優勢；OpenAI 也升級了 GPT-4o 圖像生成功能，可控性和質量大幅進化。

各家基礎模型又捲了起來。

從圖像生成到視覺推理，從多模態到超長上下文，這一輪更新更像是一場全方位能力升級的排位賽——不僅卷功能、卷質量，還在卷「智能體時代」誰能提供更好的基礎模型。

五大模型集體上新，

到底在卷什麼？

1、阿里 QVQ-Max：視覺推理能力全開。

圖/ 阿里

對於視覺推理模型，阿里的野心和意圖都非常明顯。早在去年 12 月，阿里 Qwen 團隊就探索性地推出了 QVQ-72B-Preview 視覺推理模型。到了今年 1 月，又爲雷鳥創新打造了用於雷鳥 V3 AI 眼鏡的定製模型。

而 QVQ-Max 則是一次全面的升級，不僅能「看懂」圖表、照片、甚至對視頻內容進行理解，結合這些信息進行分析、推理，給出解決方案。比如，它能「看」出一組幾何圖形之間的角度關係，或是預測視頻中下一秒可能發生的行爲，在多模態基準測試上表現出色。

簡單來說，QVQ-Max 對圖片的解析能力非常強，無論是複雜的圖表還是日常生活中隨手拍的照片，它都能快速識別出關鍵元素，同時 QVQ-Max 還能進一步分析這些信息，並結合背景知識得出結論。

圖/ Qwen

另外值得一提，QVQ-Max 目前已經上線了 Qwen Chat（），簡單上手體驗了下，對於照片的分析明顯強於Qwen2.5-Max，甚至可以根據「左上角logo是中國銀行」的提醒對應到照片中。

2、豆包新版「深度思考」，主打一個推理進階。

幾乎在同一時間，字節豆包也測試上線了新版「深度思考」能力，支持在思維鏈條展開的同時動態發起搜索，實現「邊想邊搜」。實際體驗中，豆包會在思考過程中搜索資料，不斷通過搜索補充信息再思考。

簡單來說，用戶提問如果涉及時間、地點、上下文變化或需要跨知識鏈的信息整合，豆包將不再「一次性搜一堆」，而是會在推理過程中多次觸發搜索節點，不斷修正和豐富自身的思維路徑。

了解 QVQ-Max 的思考過程，圖/豆包

比如我就嘗試了讓豆包深入了解下 QVQ-Max 模型，它就進行了兩次搜索：第一次找到 16 篇參考資料，考慮到部分信息的缺失又進行了第二次搜索，找到 8 篇參考資料。

與 DeepSeek-R1、GPT 系列此前的工具調度能力相比，豆包此次升級雖並非開創性，但顯然補上了此前在複雜問題求解方面的短板。

3、DeepSeek-V3 小版本升級，每一點都強了點。

圖/ DeepSeek

DeepSeek-V3 最新發佈的 0324 小版本升級，依舊延續了「小體積+大能力」的路線，主要借鑑了 DeepSeek-R1 在模型訓練中使用的強化學習技術，針對推理、寫作、編程能力做了進一步優化。

在前端開發能力上，新版模型能生成更具現代設計感的網頁結構，在代碼生成、轉換和編輯能力上也更爲穩定；寫作方面則明顯提升了中文中長篇文本的邏輯性和通順度，更適合小說、劇本等內容創作。

4、Gemini 2.5 Pro：谷歌最強通用模型來了。

相比 DeepSeek-V3 ，Google 本週推出的 Gemini 2.5 Pro 是一次真正意義上的「大升級」，在編碼、數學、視覺推理、搜索調度等能力上都得到了全面增強。簡而言之，它正在將「大語言模型」推向「高可信度、多輪決策型智能體」的方向演進。

作爲 Google 首個「全能型智能體底座」模型，Gemini 2.5 Pro 在對話能力上可以說是技壓群雄，在機制相對比較合理的大模型競技場 Chatbot Arena 上坐到了第一，並且大幅領先其他一衆頂級大模型，包括 Grok-3、GPT-4.5、DeepSeek-R1。

圖/ Chatbot Arena

編碼方面也就是 Agentic Coding（智能體編碼）弱於 Claude-3.7-Sonnet，但在 SWE-Bench Verified 編程測試中遙遙領先，尤其擅長創建複雜 web 應用程序和代理工具鏈。圖像生成方面，Gemini 2.5 Pro 也有了巨大的進步，在 GPT-4o 升級圖像生成能力之前也驚豔了不少人。

5、GPT-4o 原生圖片生成，效果震撼全球網友。

單從熱度上，GPT-4o（0326）的更新無疑是這一輪集體升級中最大的贏家。本週，OpenAI 爲 GPT-4o 推出新一輪的升級，不僅提高了解決複雜技術和編碼問題的能力，最出圈的可能還是原生的圖像生成功能。

上線之後，無數網友在嘗試新版本的圖像生成功能，尤其是讓 GPT-4o 用「吉卜力風格」重畫更是塞滿了我的社交媒體時間線。按照 OpenAI CEO 山姆・奧爾特曼（Sam Altman）的說法，GPT-4o 更新之後文生圖需求劇增，甚至造成了 GPU 超負荷。

（ChatGPT 4o 根據照片生成，原始照片爲嗶哩嗶哩在AWE2025的展臺）

相比之前，此次更新顯著提升了對複雜指令的理解能力和圖文混排渲染的可控性，尤其是在生成圖像中的文字內容上，準確率大幅提升。更重要的是，新版 GPT-4o 支持多輪對話過程中連續地修改圖像風格與構圖元素，可以逐步調優，視覺一致性也更強，用戶交互體驗也提升了一個維度。

智能體時代逼近，

大模型不約而同拼內功

如果說此前幾個月大模型的更新節奏還略顯零散，那麼這次幾乎同步到來的集體升級，已經清晰地釋放出一個信號：大模型正在全方位補齊能力，併爲智能體的爆發做準備。

過去一年，大模型行業主旋律是「多模態」和「高性能」，但這一輪更新之後可以發現，大廠們開始集體聚焦於三個方向：更強的推理鏈條、更高質量的內容生成、更接近智能體形態的系統調度能力。

推理能力，毫無疑問是重中之重。QVQ-Max 通過強化視覺推理打開了多模態理解的深層能力，豆包則藉助「邊想邊搜」補上覆雜問題處理的弱項，而 DeepSeek 和 Gemini 更是通過 RLHF（強化學習）強化了多輪決策和長期規劃。

這些動作都指向一個目標：讓大模型不止於「答題機器」，而是能夠真正參與複雜任務和流程執行。

圖/ Google

與此同時，內容生成的質量也普遍得到了提升。GPT-4o 升級圖像生成功能背後，實則是文本到圖像再到排版的全流程可控性提升；DeepSeek V3 新版也在強調從代碼到長文本，內容生成質量的提高。

無論是圖像生成、代碼生成還是小說生成，今天的模型更強調「結構正確、風格統一、過程透明」，簡言之就是大模型基礎能力的夯實。

而在推理和基礎能力之外，大模型還在快速補齊智能體所需的基礎能力，就比如工具調用。不管是豆包「動態搜索」的工具調用能力，還是 Gemini 在 SWE-Bench 中構建多步驟程序的能力，本質上都是在爲「模型能自主執行任務」做準備。

從這輪更新看，大模型的「智能體化」正在成爲下一場大競賽的起點，而基礎能力的全方位補齊，正在讓這場競賽變得越來越像是「拼內功」的長期戰役。

而且確信的是，ChatBot 不是大模型的終點，而是 AI 代理，或者說 AI 智能體才是大模型真正無處不在的入口。

End

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

讚好

熱點推薦

搶先評論

一周五连发！AI大模型卷出新高度：阿里豆包谷歌哪家强？

一週五連發！AI大模型卷出新高度：阿里豆包穀歌哪家強？

熱門市場機會

投資課程

快訊

一周五连发！AI大模型卷出新高度：阿里豆包谷歌哪家强？

一週五連發！AI大模型卷出新高度：阿里豆包穀歌哪家強？

風險及免責聲明

熱門市場機會

投資課程

快訊

聲明