网易首页 > 网易号 > 正文 申请入驻

一周五连发!AI大模型卷出新高度:阿里豆包谷歌哪家强?

0
分享至

大模型又卷起来了。

3 月 28 日,阿里和字节不约而同地发布了各自大模型的重磅升级:一边是能看图、读视频、还会解数学题的视觉推理模型 QVQ-Max;另一边是豆包开启测试能边想边搜的新版「深度思考」。

图/ Qwen

同一天,两大国产大模型都按下了新一轮大模型更新的启动键,或许并非巧合。就在本周,各家主流大模型都发布了一轮更新:

DeepSeek 发布 V3-0324 新版本,推理、写作、编码能力再提升;Google 也推出了 Gemini-2.5-Pro,几乎获得了全方位的能力提升,还在 LMArena 榜单上打出了 40 分的绝对领先优势;OpenAI 也升级了 GPT-4o 图像生成功能,可控性和质量大幅进化。

各家基础模型又卷了起来。

从图像生成到视觉推理,从多模态到超长上下文,这一轮更新更像是一场全方位能力升级的排位赛——不仅卷功能、卷质量,还在卷「智能体时代」谁能提供更好的基础模型。

五大模型集体上新,到底在卷什么?
1、阿里 QVQ-Max:视觉推理能力全开。

图/ 阿里

对于视觉推理模型,阿里的野心和意图都非常明显。早在去年 12 月,阿里 Qwen 团队就探索性地推出了 QVQ-72B-Preview 视觉推理模型。到了今年 1 月,又为雷鸟创新打造了用于雷鸟 V3 AI 眼镜的定制模型。

而 QVQ-Max 则是一次全面的升级,不仅能「看懂」图表、照片、甚至对视频内容进行理解,结合这些信息进行分析、推理,给出解决方案。比如,它能「看」出一组几何图形之间的角度关系,或是预测视频中下一秒可能发生的行为,在多模态基准测试上表现出色。

简单来说,QVQ-Max 对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素,同时 QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。

图/ Qwen

另外值得一提,QVQ-Max 目前已经上线了 Qwen Chat(https://chat.qwen.ai),简单上手体验了下,对于照片的分析明显强于Qwen2.5-Max,甚至可以根据「左上角logo是中国银行」的提醒对应到照片中。

2、豆包新版「深度思考」,主打一个推理进阶。

几乎在同一时间,字节豆包也测试上线了新版「深度思考」能力,支持在思维链条展开的同时动态发起搜索,实现「边想边搜」。实际体验中,豆包会在思考过程中搜索资料,不断通过搜索补充信息再思考。

简单来说,用户提问如果涉及时间、地点、上下文变化或需要跨知识链的信息整合,豆包将不再「一次性搜一堆」,而是会在推理过程中多次触发搜索节点,不断修正和丰富自身的思维路径。

了解 QVQ-Max 的思考过程,图/豆包

比如我就尝试了让豆包深入了解下 QVQ-Max 模型,它就进行了两次搜索:第一次找到 16 篇参考资料,考虑到部分信息的缺失又进行了第二次搜索,找到 8 篇参考资料。

与 DeepSeek-R1、GPT 系列此前的工具调度能力相比,豆包此次升级虽并非开创性,但显然补上了此前在复杂问题求解方面的短板。

3、DeepSeek-V3 小版本升级,每一点都强了点。

图/ DeepSeek

DeepSeek-V3 最新发布的 0324 小版本升级,依旧延续了「小体积+大能力」的路线,主要借鉴了 DeepSeek-R1 在模型训练中使用的强化学习技术,针对推理、写作、编程能力做了进一步优化。

在前端开发能力上,新版模型能生成更具现代设计感的网页结构,在代码生成、转换和编辑能力上也更为稳定;写作方面则明显提升了中文中长篇文本的逻辑性和通顺度,更适合小说、剧本等内容创作。

4、Gemini 2.5 Pro:谷歌最强通用模型来了。

相比 DeepSeek-V3 ,Google 本周推出的 Gemini 2.5 Pro 是一次真正意义上的「大升级」,在编码、数学、视觉推理、搜索调度等能力上都得到了全面增强。简而言之,它正在将「大语言模型」推向「高可信度、多轮决策型智能体」的方向演进。

作为 Google 首个「全能型智能体底座」模型,Gemini 2.5 Pro 在对话能力上可以说是技压群雄,在机制相对比较合理的大模型竞技场 Chatbot Arena 上坐到了第一,并且大幅领先其他一众顶级大模型,包括 Grok-3、GPT-4.5、DeepSeek-R1。

图/ Chatbot Arena

编码方面也就是 Agentic Coding(智能体编码)弱于 Claude-3.7-Sonnet,但在 SWE-Bench Verified 编程测试中遥遥领先,尤其擅长创建复杂 web 应用程序和代理工具链。图像生成方面,Gemini 2.5 Pro 也有了巨大的进步,在 GPT-4o 升级图像生成能力之前也惊艳了不少人。

5、GPT-4o 原生图片生成,效果震撼全球网友。

单从热度上,GPT-4o(0326)的更新无疑是这一轮集体升级中最大的赢家。本周,OpenAI 为 GPT-4o 推出新一轮的升级,不仅提高了解决复杂技术和编码问题的能力,最出圈的可能还是原生的图像生成功能。

上线之后,无数网友在尝试新版本的图像生成功能,尤其是让 GPT-4o 用「吉卜力风格」重画更是塞满了我的社交媒体时间线。按照 OpenAI CEO 山姆・奥尔特曼(Sam Altman)的说法,GPT-4o 更新之后文生图需求剧增,甚至造成了 GPU 超负荷。

(ChatGPT 4o 根据照片生成,原始照片为哔哩哔哩在AWE2025的展台)

相比之前,此次更新显著提升了对复杂指令的理解能力和图文混排渲染的可控性,尤其是在生成图像中的文字内容上,准确率大幅提升。更重要的是,新版 GPT-4o 支持多轮对话过程中连续地修改图像风格与构图元素,可以逐步调优,视觉一致性也更强,用户交互体验也提升了一个维度。

智能体时代逼近,大模型不约而同拼内功

如果说此前几个月大模型的更新节奏还略显零散,那么这次几乎同步到来的集体升级,已经清晰地释放出一个信号:大模型正在全方位补齐能力,并为智能体的爆发做准备。

过去一年,大模型行业主旋律是「多模态」和「高性能」,但这一轮更新之后可以发现,大厂们开始集体聚焦于三个方向:更强的推理链条、更高质量的内容生成、更接近智能体形态的系统调度能力。

推理能力,毫无疑问是重中之重。 QVQ-Max 通过强化视觉推理打开了多模态理解的深层能力,豆包则借助「边想边搜」补上复杂问题处理的弱项,而 DeepSeek 和 Gemini 更是通过 RLHF(强化学习)强化了多轮决策和长期规划。

这些动作都指向一个目标:让大模型不止于「答题机器」,而是能够真正参与复杂任务和流程执行。

图/ Google

与此同时,内容生成的质量也普遍得到了提升。GPT-4o 升级图像生成功能背后,实则是文本到图像再到排版的全流程可控性提升;DeepSeek V3 新版也在强调从代码到长文本,内容生成质量的提高。

无论是图像生成、代码生成还是小说生成,今天的模型更强调「结构正确、风格统一、过程透明」,简言之就是大模型基础能力的夯实。

而在推理和基础能力之外,大模型还在快速补齐智能体所需的基础能力,就比如工具调用。不管是豆包「动态搜索」的工具调用能力,还是 Gemini 在 SWE-Bench 中构建多步骤程序的能力,本质上都是在为「模型能自主执行任务」做准备。

从这轮更新看,大模型的「智能体化」正在成为下一场大竞赛的起点,而基础能力的全方位补齐,正在让这场竞赛变得越来越像是「拼内功」的长期战役。

而且确信的是,ChatBot 不是大模型的终点,而是 AI 代理,或者说 AI 智能体才是大模型真正无处不在的入口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

唠叨说历史
2026-03-20 17:26:29
伊朗第一超模:跟你想的不一样,这才是沙漏身材!

伊朗第一超模:跟你想的不一样,这才是沙漏身材!

华人星光
2026-02-27 12:06:22
匈牙利大选倒计时,欧尔班铁腕难续,莫斯科关键支点或倒台

匈牙利大选倒计时,欧尔班铁腕难续,莫斯科关键支点或倒台

潋滟晴方DAY
2026-03-21 05:22:20
中央下令:2026农村宅基地全面严查,5类人躲不掉,早知早准备

中央下令:2026农村宅基地全面严查,5类人躲不掉,早知早准备

三农雷哥
2026-03-20 17:49:40
“茶几”正在退出中国家庭,学广东人这样做,实用性让人大开眼界

“茶几”正在退出中国家庭,学广东人这样做,实用性让人大开眼界

室内设计师有料儿
2026-02-19 11:17:18
图们江俄朝新大桥建成,彻底锁死中国东北出海口,俄朝为何这么做

图们江俄朝新大桥建成,彻底锁死中国东北出海口,俄朝为何这么做

阿胡
2026-03-20 11:13:28
谢婷婷带混血儿子回香港,飞机上晒儿子正脸照,长相俊俏像极父亲

谢婷婷带混血儿子回香港,飞机上晒儿子正脸照,长相俊俏像极父亲

章眽八卦
2026-03-20 12:51:28
随着朗斯5-1大胜,法甲最新积分榜出炉:榜首易主

随着朗斯5-1大胜,法甲最新积分榜出炉:榜首易主

侧身凌空斩
2026-03-21 05:56:07
真准!伊朗局势正按照艾跃进当年的预判进行

真准!伊朗局势正按照艾跃进当年的预判进行

贱议你读史
2026-03-11 01:43:36
郭嘉文亏本售李泽楷所赠豪宅,7840万昔日爱巢空

郭嘉文亏本售李泽楷所赠豪宅,7840万昔日爱巢空

暖心萌阿菇凉
2026-03-20 03:29:59
关晓彤线下状态堪忧!面部浮肿、发型贴头皮,衣服皱巴状态拉胯

关晓彤线下状态堪忧!面部浮肿、发型贴头皮,衣服皱巴状态拉胯

原梦叁生
2026-03-21 04:35:29
网球再爆大冷!世界冠军爆冷出局,郑钦文首秀对手敲定,冲冠利好

网球再爆大冷!世界冠军爆冷出局,郑钦文首秀对手敲定,冲冠利好

曹说体育
2026-03-20 12:18:48
太佩服兰姐了!姜还是老的辣啊,一句话让马筱梅放弃给儿子改姓

太佩服兰姐了!姜还是老的辣啊,一句话让马筱梅放弃给儿子改姓

魔都姐姐杂谈
2026-03-20 16:58:58
字节跳动413亿元卖掉沐瞳科技

字节跳动413亿元卖掉沐瞳科技

21世纪经济报道
2026-03-20 16:49:17
国际赛26胜仅1负!国羽天才因改年龄被开除,破格召回怒夺第三冠

国际赛26胜仅1负!国羽天才因改年龄被开除,破格召回怒夺第三冠

二疯说球
2026-03-20 09:46:34
尘封17年纪录被破!中国游泳公开赛:31岁澳洲名将破50自世界纪录

尘封17年纪录被破!中国游泳公开赛:31岁澳洲名将破50自世界纪录

全景体育V
2026-03-20 19:22:59
带着饥饿感入睡能减肥?医生提醒:长期饿着睡,这些疾病会找上你

带着饥饿感入睡能减肥?医生提醒:长期饿着睡,这些疾病会找上你

心灵的触动a
2026-03-20 15:55:25
国务院国资委:加快建立一支自主可靠、熟练稳定、专业规范的建筑央企自有产业工人队伍

国务院国资委:加快建立一支自主可靠、熟练稳定、专业规范的建筑央企自有产业工人队伍

界面新闻
2026-03-20 20:09:38
美国的人均GDP已经到了8万美元,为什么美国人还是生活困难?

美国的人均GDP已经到了8万美元,为什么美国人还是生活困难?

罗sir财话
2026-03-20 20:59:12
全集团降薪40%

全集团降薪40%

新浪财经
2026-03-19 11:43:53
2026-03-21 06:48:49
雷科技 incentive-icons
雷科技
专注AI硬科技
36522文章数 811936关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

英国授权美军用其基地打伊朗 伊外长:将行使自卫权回应

头条要闻

英国授权美军用其基地打伊朗 伊外长:将行使自卫权回应

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

金融法草案向社会公开征求意见

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

亲子
健康
艺术
公开课
军事航空

亲子要闻

为什么有钱人家孩子一般长相都不错?网友:要有钱有闲

转头就晕的耳石症,能开车上班吗?

艺术要闻

叶浅予的白描舞蹈人物

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普会晤高市早苗 把美国袭击伊朗比作偷袭珍珠港

无障碍浏览 进入关怀版