网易首页 > 网易号 > 正文 申请入驻

一周五连发!AI大模型卷出新高度:阿里豆包谷歌哪家强?

0
分享至

大模型又卷起来了。

3 月 28 日,阿里和字节不约而同地发布了各自大模型的重磅升级:一边是能看图、读视频、还会解数学题的视觉推理模型 QVQ-Max;另一边是豆包开启测试能边想边搜的新版「深度思考」。

图/ Qwen

同一天,两大国产大模型都按下了新一轮大模型更新的启动键,或许并非巧合。就在本周,各家主流大模型都发布了一轮更新:

DeepSeek 发布 V3-0324 新版本,推理、写作、编码能力再提升;Google 也推出了 Gemini-2.5-Pro,几乎获得了全方位的能力提升,还在 LMArena 榜单上打出了 40 分的绝对领先优势;OpenAI 也升级了 GPT-4o 图像生成功能,可控性和质量大幅进化。

各家基础模型又卷了起来。

从图像生成到视觉推理,从多模态到超长上下文,这一轮更新更像是一场全方位能力升级的排位赛——不仅卷功能、卷质量,还在卷「智能体时代」谁能提供更好的基础模型。

五大模型集体上新,到底在卷什么?
1、阿里 QVQ-Max:视觉推理能力全开。

图/ 阿里

对于视觉推理模型,阿里的野心和意图都非常明显。早在去年 12 月,阿里 Qwen 团队就探索性地推出了 QVQ-72B-Preview 视觉推理模型。到了今年 1 月,又为雷鸟创新打造了用于雷鸟 V3 AI 眼镜的定制模型。

而 QVQ-Max 则是一次全面的升级,不仅能「看懂」图表、照片、甚至对视频内容进行理解,结合这些信息进行分析、推理,给出解决方案。比如,它能「看」出一组几何图形之间的角度关系,或是预测视频中下一秒可能发生的行为,在多模态基准测试上表现出色。

简单来说,QVQ-Max 对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素,同时 QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。

图/ Qwen

另外值得一提,QVQ-Max 目前已经上线了 Qwen Chat(https://chat.qwen.ai),简单上手体验了下,对于照片的分析明显强于Qwen2.5-Max,甚至可以根据「左上角logo是中国银行」的提醒对应到照片中。

2、豆包新版「深度思考」,主打一个推理进阶。

几乎在同一时间,字节豆包也测试上线了新版「深度思考」能力,支持在思维链条展开的同时动态发起搜索,实现「边想边搜」。实际体验中,豆包会在思考过程中搜索资料,不断通过搜索补充信息再思考。

简单来说,用户提问如果涉及时间、地点、上下文变化或需要跨知识链的信息整合,豆包将不再「一次性搜一堆」,而是会在推理过程中多次触发搜索节点,不断修正和丰富自身的思维路径。

了解 QVQ-Max 的思考过程,图/豆包

比如我就尝试了让豆包深入了解下 QVQ-Max 模型,它就进行了两次搜索:第一次找到 16 篇参考资料,考虑到部分信息的缺失又进行了第二次搜索,找到 8 篇参考资料。

与 DeepSeek-R1、GPT 系列此前的工具调度能力相比,豆包此次升级虽并非开创性,但显然补上了此前在复杂问题求解方面的短板。

3、DeepSeek-V3 小版本升级,每一点都强了点。

图/ DeepSeek

DeepSeek-V3 最新发布的 0324 小版本升级,依旧延续了「小体积+大能力」的路线,主要借鉴了 DeepSeek-R1 在模型训练中使用的强化学习技术,针对推理、写作、编程能力做了进一步优化。

在前端开发能力上,新版模型能生成更具现代设计感的网页结构,在代码生成、转换和编辑能力上也更为稳定;写作方面则明显提升了中文中长篇文本的逻辑性和通顺度,更适合小说、剧本等内容创作。

4、Gemini 2.5 Pro:谷歌最强通用模型来了。

相比 DeepSeek-V3 ,Google 本周推出的 Gemini 2.5 Pro 是一次真正意义上的「大升级」,在编码、数学、视觉推理、搜索调度等能力上都得到了全面增强。简而言之,它正在将「大语言模型」推向「高可信度、多轮决策型智能体」的方向演进。

作为 Google 首个「全能型智能体底座」模型,Gemini 2.5 Pro 在对话能力上可以说是技压群雄,在机制相对比较合理的大模型竞技场 Chatbot Arena 上坐到了第一,并且大幅领先其他一众顶级大模型,包括 Grok-3、GPT-4.5、DeepSeek-R1。

图/ Chatbot Arena

编码方面也就是 Agentic Coding(智能体编码)弱于 Claude-3.7-Sonnet,但在 SWE-Bench Verified 编程测试中遥遥领先,尤其擅长创建复杂 web 应用程序和代理工具链。图像生成方面,Gemini 2.5 Pro 也有了巨大的进步,在 GPT-4o 升级图像生成能力之前也惊艳了不少人。

5、GPT-4o 原生图片生成,效果震撼全球网友。

单从热度上,GPT-4o(0326)的更新无疑是这一轮集体升级中最大的赢家。本周,OpenAI 为 GPT-4o 推出新一轮的升级,不仅提高了解决复杂技术和编码问题的能力,最出圈的可能还是原生的图像生成功能。

上线之后,无数网友在尝试新版本的图像生成功能,尤其是让 GPT-4o 用「吉卜力风格」重画更是塞满了我的社交媒体时间线。按照 OpenAI CEO 山姆・奥尔特曼(Sam Altman)的说法,GPT-4o 更新之后文生图需求剧增,甚至造成了 GPU 超负荷。

(ChatGPT 4o 根据照片生成,原始照片为哔哩哔哩在AWE2025的展台)

相比之前,此次更新显著提升了对复杂指令的理解能力和图文混排渲染的可控性,尤其是在生成图像中的文字内容上,准确率大幅提升。更重要的是,新版 GPT-4o 支持多轮对话过程中连续地修改图像风格与构图元素,可以逐步调优,视觉一致性也更强,用户交互体验也提升了一个维度。

智能体时代逼近,大模型不约而同拼内功

如果说此前几个月大模型的更新节奏还略显零散,那么这次几乎同步到来的集体升级,已经清晰地释放出一个信号:大模型正在全方位补齐能力,并为智能体的爆发做准备。

过去一年,大模型行业主旋律是「多模态」和「高性能」,但这一轮更新之后可以发现,大厂们开始集体聚焦于三个方向:更强的推理链条、更高质量的内容生成、更接近智能体形态的系统调度能力。

推理能力,毫无疑问是重中之重。 QVQ-Max 通过强化视觉推理打开了多模态理解的深层能力,豆包则借助「边想边搜」补上复杂问题处理的弱项,而 DeepSeek 和 Gemini 更是通过 RLHF(强化学习)强化了多轮决策和长期规划。

这些动作都指向一个目标:让大模型不止于「答题机器」,而是能够真正参与复杂任务和流程执行。

图/ Google

与此同时,内容生成的质量也普遍得到了提升。GPT-4o 升级图像生成功能背后,实则是文本到图像再到排版的全流程可控性提升;DeepSeek V3 新版也在强调从代码到长文本,内容生成质量的提高。

无论是图像生成、代码生成还是小说生成,今天的模型更强调「结构正确、风格统一、过程透明」,简言之就是大模型基础能力的夯实。

而在推理和基础能力之外,大模型还在快速补齐智能体所需的基础能力,就比如工具调用。不管是豆包「动态搜索」的工具调用能力,还是 Gemini 在 SWE-Bench 中构建多步骤程序的能力,本质上都是在为「模型能自主执行任务」做准备。

从这轮更新看,大模型的「智能体化」正在成为下一场大竞赛的起点,而基础能力的全方位补齐,正在让这场竞赛变得越来越像是「拼内功」的长期战役。

而且确信的是,ChatBot 不是大模型的终点,而是 AI 代理,或者说 AI 智能体才是大模型真正无处不在的入口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

李晚书
2026-06-23 09:56:58
王石称损失惨重

王石称损失惨重

新浪财经
2026-06-23 11:10:25
中国男篮65-60荷兰 球员评价:1人优秀,6人及格,5人低迷

中国男篮65-60荷兰 球员评价:1人优秀,6人及格,5人低迷

篮球资讯达人
2026-06-23 21:23:04
上海今天正式官宣!进入倒计时!6年没白等,已创两项“亚洲之最”

上海今天正式官宣!进入倒计时!6年没白等,已创两项“亚洲之最”

新浪财经
2026-06-23 20:31:41
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
一觉醒来,美股7巨头崩了5个

一觉醒来,美股7巨头崩了5个

贩财局
2026-06-23 09:16:46
曾被云南镇雄县公安局原副局长举报伪造、篡改笔录,涉事办案人员已不再担任县信访局局长职务

曾被云南镇雄县公安局原副局长举报伪造、篡改笔录,涉事办案人员已不再担任县信访局局长职务

大风新闻
2026-06-23 11:32:12
6月23日,人社部关于上调退休人员基本养老金通知正式发布了吗?

6月23日,人社部关于上调退休人员基本养老金通知正式发布了吗?

小彬说事
2026-06-23 08:45:40
车主称踩下刹车,特斯拉反而加速,路口“飙到110km/h”:保险还没生效就撞报废了;特斯拉方回复:事发前没有发现制动系统异常

车主称踩下刹车,特斯拉反而加速,路口“飙到110km/h”:保险还没生效就撞报废了;特斯拉方回复:事发前没有发现制动系统异常

极目新闻
2026-06-23 13:25:20
阿尔及利亚2比1约旦,“救赎之战”完成逆转掌握出线主动权

阿尔及利亚2比1约旦,“救赎之战”完成逆转掌握出线主动权

澎湃新闻
2026-06-23 13:02:28
结婚八年三个孩子疑似非亲生 当事人:起诉离婚,法院已受理

结婚八年三个孩子疑似非亲生 当事人:起诉离婚,法院已受理

封面新闻
2026-06-23 15:44:06
赖清德再度大放厥词!这样都不是“挑衅”,那什么是

赖清德再度大放厥词!这样都不是“挑衅”,那什么是

海峡导报社
2026-06-22 15:32:00
0-3!世界杯第二惨亚洲球队诞生:2连败丢7球+0分垫底,基本出局

0-3!世界杯第二惨亚洲球队诞生:2连败丢7球+0分垫底,基本出局

侃球熊弟
2026-06-23 08:48:38
世界杯32强决出6席!阿根廷进天堂半区,避开5大前冠军,4强稳了

世界杯32强决出6席!阿根廷进天堂半区,避开5大前冠军,4强稳了

球场没跑道
2026-06-23 17:17:48
成都产业投资集团原董事长石磊接受审查调查

成都产业投资集团原董事长石磊接受审查调查

界面新闻
2026-06-23 17:15:38
民意崩塌!葡媒球迷全员倒戈!C罗落选首发,世界杯次战沦为替补

民意崩塌!葡媒球迷全员倒戈!C罗落选首发,世界杯次战沦为替补

冷紫葉
2026-06-23 18:08:14
曾琦医生“回来了”!名字和简历重回专家栏,坐诊时间也公示出来

曾琦医生“回来了”!名字和简历重回专家栏,坐诊时间也公示出来

火山詩话
2026-06-23 16:33:56
商家:今年吃杨梅的都赚到了!福建“泡药杨梅”事件后,一箱浙江杨梅从138元跌到110元

商家:今年吃杨梅的都赚到了!福建“泡药杨梅”事件后,一箱浙江杨梅从138元跌到110元

第一财经资讯
2026-06-23 16:47:29
金靴争夺白热化!3人进球4+,72年第一次,压力给到凯恩C罗

金靴争夺白热化!3人进球4+,72年第一次,压力给到凯恩C罗

奥拜尔
2026-06-23 10:40:22
某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

黯泉
2026-06-23 17:44:53
2026-06-23 22:08:49
雷科技 incentive-icons
雷科技
专注AI硬科技
37109文章数 812206关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

家居
时尚
教育
房产
游戏

家居要闻

绿意盎然 自然之境

除了玛丽珍、薄底鞋,今年最火的鞋子就是它了

教育要闻

赓续长征红色血脉 一体化共育时代新人——记海淀区大中小学思政教育一体化共同体第四协作组纪念长征胜利90周年现场会

房产要闻

洞察新局|预算不变 居住升级 2026广州置业成本观察

狂卖到脱销!Steam主机所有型号已在亚洲全部售罄

无障碍浏览 进入关怀版