一周五连发！AI大模型卷出新高度：阿里豆包谷歌哪家强？|模态|推理|编程|智能体|知名企业|云计算费用

一周五连发！AI大模型卷出新高度：阿里豆包谷歌哪家强？

2025-03-28 21:19:12　来源: 雷科技

广东举报

分享至

大模型又卷起来了。

3 月 28 日，阿里和字节不约而同地发布了各自大模型的重磅升级：一边是能看图、读视频、还会解数学题的视觉推理模型 QVQ-Max；另一边是豆包开启测试能边想边搜的新版「深度思考」。

图/ Qwen

同一天，两大国产大模型都按下了新一轮大模型更新的启动键，或许并非巧合。就在本周，各家主流大模型都发布了一轮更新：

DeepSeek 发布 V3-0324 新版本，推理、写作、编码能力再提升；Google 也推出了 Gemini-2.5-Pro，几乎获得了全方位的能力提升，还在 LMArena 榜单上打出了 40 分的绝对领先优势；OpenAI 也升级了 GPT-4o 图像生成功能，可控性和质量大幅进化。

各家基础模型又卷了起来。

从图像生成到视觉推理，从多模态到超长上下文，这一轮更新更像是一场全方位能力升级的排位赛——不仅卷功能、卷质量，还在卷「智能体时代」谁能提供更好的基础模型。

五大模型集体上新，到底在卷什么？

1、阿里 QVQ-Max：视觉推理能力全开。

图/ 阿里

对于视觉推理模型，阿里的野心和意图都非常明显。早在去年 12 月，阿里 Qwen 团队就探索性地推出了 QVQ-72B-Preview 视觉推理模型。到了今年 1 月，又为雷鸟创新打造了用于雷鸟 V3 AI 眼镜的定制模型。

而 QVQ-Max 则是一次全面的升级，不仅能「看懂」图表、照片、甚至对视频内容进行理解，结合这些信息进行分析、推理，给出解决方案。比如，它能「看」出一组几何图形之间的角度关系，或是预测视频中下一秒可能发生的行为，在多模态基准测试上表现出色。

简单来说，QVQ-Max 对图片的解析能力非常强，无论是复杂的图表还是日常生活中随手拍的照片，它都能快速识别出关键元素，同时 QVQ-Max 还能进一步分析这些信息，并结合背景知识得出结论。

图/ Qwen

另外值得一提，QVQ-Max 目前已经上线了 Qwen Chat（https://chat.qwen.ai），简单上手体验了下，对于照片的分析明显强于Qwen2.5-Max，甚至可以根据「左上角logo是中国银行」的提醒对应到照片中。

2、豆包新版「深度思考」，主打一个推理进阶。

几乎在同一时间，字节豆包也测试上线了新版「深度思考」能力，支持在思维链条展开的同时动态发起搜索，实现「边想边搜」。实际体验中，豆包会在思考过程中搜索资料，不断通过搜索补充信息再思考。

简单来说，用户提问如果涉及时间、地点、上下文变化或需要跨知识链的信息整合，豆包将不再「一次性搜一堆」，而是会在推理过程中多次触发搜索节点，不断修正和丰富自身的思维路径。

了解 QVQ-Max 的思考过程，图/豆包

比如我就尝试了让豆包深入了解下 QVQ-Max 模型，它就进行了两次搜索：第一次找到 16 篇参考资料，考虑到部分信息的缺失又进行了第二次搜索，找到 8 篇参考资料。

与 DeepSeek-R1、GPT 系列此前的工具调度能力相比，豆包此次升级虽并非开创性，但显然补上了此前在复杂问题求解方面的短板。

3、DeepSeek-V3 小版本升级，每一点都强了点。

图/ DeepSeek

DeepSeek-V3 最新发布的 0324 小版本升级，依旧延续了「小体积+大能力」的路线，主要借鉴了 DeepSeek-R1 在模型训练中使用的强化学习技术，针对推理、写作、编程能力做了进一步优化。

在前端开发能力上，新版模型能生成更具现代设计感的网页结构，在代码生成、转换和编辑能力上也更为稳定；写作方面则明显提升了中文中长篇文本的逻辑性和通顺度，更适合小说、剧本等内容创作。

4、Gemini 2.5 Pro：谷歌最强通用模型来了。

相比 DeepSeek-V3 ，Google 本周推出的 Gemini 2.5 Pro 是一次真正意义上的「大升级」，在编码、数学、视觉推理、搜索调度等能力上都得到了全面增强。简而言之，它正在将「大语言模型」推向「高可信度、多轮决策型智能体」的方向演进。

作为 Google 首个「全能型智能体底座」模型，Gemini 2.5 Pro 在对话能力上可以说是技压群雄，在机制相对比较合理的大模型竞技场 Chatbot Arena 上坐到了第一，并且大幅领先其他一众顶级大模型，包括 Grok-3、GPT-4.5、DeepSeek-R1。

图/ Chatbot Arena

编码方面也就是 Agentic Coding（智能体编码）弱于 Claude-3.7-Sonnet，但在 SWE-Bench Verified 编程测试中遥遥领先，尤其擅长创建复杂 web 应用程序和代理工具链。图像生成方面，Gemini 2.5 Pro 也有了巨大的进步，在 GPT-4o 升级图像生成能力之前也惊艳了不少人。

5、GPT-4o 原生图片生成，效果震撼全球网友。

单从热度上，GPT-4o（0326）的更新无疑是这一轮集体升级中最大的赢家。本周，OpenAI 为 GPT-4o 推出新一轮的升级，不仅提高了解决复杂技术和编码问题的能力，最出圈的可能还是原生的图像生成功能。

上线之后，无数网友在尝试新版本的图像生成功能，尤其是让 GPT-4o 用「吉卜力风格」重画更是塞满了我的社交媒体时间线。按照 OpenAI CEO 山姆・奥尔特曼（Sam Altman）的说法，GPT-4o 更新之后文生图需求剧增，甚至造成了 GPU 超负荷。

（ChatGPT 4o 根据照片生成，原始照片为哔哩哔哩在AWE2025的展台）

相比之前，此次更新显著提升了对复杂指令的理解能力和图文混排渲染的可控性，尤其是在生成图像中的文字内容上，准确率大幅提升。更重要的是，新版 GPT-4o 支持多轮对话过程中连续地修改图像风格与构图元素，可以逐步调优，视觉一致性也更强，用户交互体验也提升了一个维度。

智能体时代逼近，大模型不约而同拼内功

如果说此前几个月大模型的更新节奏还略显零散，那么这次几乎同步到来的集体升级，已经清晰地释放出一个信号：大模型正在全方位补齐能力，并为智能体的爆发做准备。

过去一年，大模型行业主旋律是「多模态」和「高性能」，但这一轮更新之后可以发现，大厂们开始集体聚焦于三个方向：更强的推理链条、更高质量的内容生成、更接近智能体形态的系统调度能力。

推理能力，毫无疑问是重中之重。 QVQ-Max 通过强化视觉推理打开了多模态理解的深层能力，豆包则借助「边想边搜」补上复杂问题处理的弱项，而 DeepSeek 和 Gemini 更是通过 RLHF（强化学习）强化了多轮决策和长期规划。

这些动作都指向一个目标：让大模型不止于「答题机器」，而是能够真正参与复杂任务和流程执行。

图/ Google

与此同时，内容生成的质量也普遍得到了提升。GPT-4o 升级图像生成功能背后，实则是文本到图像再到排版的全流程可控性提升；DeepSeek V3 新版也在强调从代码到长文本，内容生成质量的提高。

无论是图像生成、代码生成还是小说生成，今天的模型更强调「结构正确、风格统一、过程透明」，简言之就是大模型基础能力的夯实。

而在推理和基础能力之外，大模型还在快速补齐智能体所需的基础能力，就比如工具调用。不管是豆包「动态搜索」的工具调用能力，还是 Gemini 在 SWE-Bench 中构建多步骤程序的能力，本质上都是在为「模型能自主执行任务」做准备。

从这轮更新看，大模型的「智能体化」正在成为下一场大竞赛的起点，而基础能力的全方位补齐，正在让这场竞赛变得越来越像是「拼内功」的长期战役。

而且确信的是，ChatBot 不是大模型的终点，而是 AI 代理，或者说 AI 智能体才是大模型真正无处不在的入口。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.