网易首页 > 网易号 > 正文 申请入驻

一周五连发!AI大模型卷出新高度:阿里豆包谷歌哪家强?

0
分享至

大模型又卷起来了。

3 月 28 日,阿里和字节不约而同地发布了各自大模型的重磅升级:一边是能看图、读视频、还会解数学题的视觉推理模型 QVQ-Max;另一边是豆包开启测试能边想边搜的新版「深度思考」。

图/ Qwen

同一天,两大国产大模型都按下了新一轮大模型更新的启动键,或许并非巧合。就在本周,各家主流大模型都发布了一轮更新:

DeepSeek 发布 V3-0324 新版本,推理、写作、编码能力再提升;Google 也推出了 Gemini-2.5-Pro,几乎获得了全方位的能力提升,还在 LMArena 榜单上打出了 40 分的绝对领先优势;OpenAI 也升级了 GPT-4o 图像生成功能,可控性和质量大幅进化。

各家基础模型又卷了起来。

从图像生成到视觉推理,从多模态到超长上下文,这一轮更新更像是一场全方位能力升级的排位赛——不仅卷功能、卷质量,还在卷「智能体时代」谁能提供更好的基础模型。

五大模型集体上新,到底在卷什么?
1、阿里 QVQ-Max:视觉推理能力全开。

图/ 阿里

对于视觉推理模型,阿里的野心和意图都非常明显。早在去年 12 月,阿里 Qwen 团队就探索性地推出了 QVQ-72B-Preview 视觉推理模型。到了今年 1 月,又为雷鸟创新打造了用于雷鸟 V3 AI 眼镜的定制模型。

而 QVQ-Max 则是一次全面的升级,不仅能「看懂」图表、照片、甚至对视频内容进行理解,结合这些信息进行分析、推理,给出解决方案。比如,它能「看」出一组几何图形之间的角度关系,或是预测视频中下一秒可能发生的行为,在多模态基准测试上表现出色。

简单来说,QVQ-Max 对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素,同时 QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。

图/ Qwen

另外值得一提,QVQ-Max 目前已经上线了 Qwen Chat(https://chat.qwen.ai),简单上手体验了下,对于照片的分析明显强于Qwen2.5-Max,甚至可以根据「左上角logo是中国银行」的提醒对应到照片中。

2、豆包新版「深度思考」,主打一个推理进阶。

几乎在同一时间,字节豆包也测试上线了新版「深度思考」能力,支持在思维链条展开的同时动态发起搜索,实现「边想边搜」。实际体验中,豆包会在思考过程中搜索资料,不断通过搜索补充信息再思考。

简单来说,用户提问如果涉及时间、地点、上下文变化或需要跨知识链的信息整合,豆包将不再「一次性搜一堆」,而是会在推理过程中多次触发搜索节点,不断修正和丰富自身的思维路径。

了解 QVQ-Max 的思考过程,图/豆包

比如我就尝试了让豆包深入了解下 QVQ-Max 模型,它就进行了两次搜索:第一次找到 16 篇参考资料,考虑到部分信息的缺失又进行了第二次搜索,找到 8 篇参考资料。

与 DeepSeek-R1、GPT 系列此前的工具调度能力相比,豆包此次升级虽并非开创性,但显然补上了此前在复杂问题求解方面的短板。

3、DeepSeek-V3 小版本升级,每一点都强了点。

图/ DeepSeek

DeepSeek-V3 最新发布的 0324 小版本升级,依旧延续了「小体积+大能力」的路线,主要借鉴了 DeepSeek-R1 在模型训练中使用的强化学习技术,针对推理、写作、编程能力做了进一步优化。

在前端开发能力上,新版模型能生成更具现代设计感的网页结构,在代码生成、转换和编辑能力上也更为稳定;写作方面则明显提升了中文中长篇文本的逻辑性和通顺度,更适合小说、剧本等内容创作。

4、Gemini 2.5 Pro:谷歌最强通用模型来了。

相比 DeepSeek-V3 ,Google 本周推出的 Gemini 2.5 Pro 是一次真正意义上的「大升级」,在编码、数学、视觉推理、搜索调度等能力上都得到了全面增强。简而言之,它正在将「大语言模型」推向「高可信度、多轮决策型智能体」的方向演进。

作为 Google 首个「全能型智能体底座」模型,Gemini 2.5 Pro 在对话能力上可以说是技压群雄,在机制相对比较合理的大模型竞技场 Chatbot Arena 上坐到了第一,并且大幅领先其他一众顶级大模型,包括 Grok-3、GPT-4.5、DeepSeek-R1。

图/ Chatbot Arena

编码方面也就是 Agentic Coding(智能体编码)弱于 Claude-3.7-Sonnet,但在 SWE-Bench Verified 编程测试中遥遥领先,尤其擅长创建复杂 web 应用程序和代理工具链。图像生成方面,Gemini 2.5 Pro 也有了巨大的进步,在 GPT-4o 升级图像生成能力之前也惊艳了不少人。

5、GPT-4o 原生图片生成,效果震撼全球网友。

单从热度上,GPT-4o(0326)的更新无疑是这一轮集体升级中最大的赢家。本周,OpenAI 为 GPT-4o 推出新一轮的升级,不仅提高了解决复杂技术和编码问题的能力,最出圈的可能还是原生的图像生成功能。

上线之后,无数网友在尝试新版本的图像生成功能,尤其是让 GPT-4o 用「吉卜力风格」重画更是塞满了我的社交媒体时间线。按照 OpenAI CEO 山姆・奥尔特曼(Sam Altman)的说法,GPT-4o 更新之后文生图需求剧增,甚至造成了 GPU 超负荷。

(ChatGPT 4o 根据照片生成,原始照片为哔哩哔哩在AWE2025的展台)

相比之前,此次更新显著提升了对复杂指令的理解能力和图文混排渲染的可控性,尤其是在生成图像中的文字内容上,准确率大幅提升。更重要的是,新版 GPT-4o 支持多轮对话过程中连续地修改图像风格与构图元素,可以逐步调优,视觉一致性也更强,用户交互体验也提升了一个维度。

智能体时代逼近,大模型不约而同拼内功

如果说此前几个月大模型的更新节奏还略显零散,那么这次几乎同步到来的集体升级,已经清晰地释放出一个信号:大模型正在全方位补齐能力,并为智能体的爆发做准备。

过去一年,大模型行业主旋律是「多模态」和「高性能」,但这一轮更新之后可以发现,大厂们开始集体聚焦于三个方向:更强的推理链条、更高质量的内容生成、更接近智能体形态的系统调度能力。

推理能力,毫无疑问是重中之重。 QVQ-Max 通过强化视觉推理打开了多模态理解的深层能力,豆包则借助「边想边搜」补上复杂问题处理的弱项,而 DeepSeek 和 Gemini 更是通过 RLHF(强化学习)强化了多轮决策和长期规划。

这些动作都指向一个目标:让大模型不止于「答题机器」,而是能够真正参与复杂任务和流程执行。

图/ Google

与此同时,内容生成的质量也普遍得到了提升。GPT-4o 升级图像生成功能背后,实则是文本到图像再到排版的全流程可控性提升;DeepSeek V3 新版也在强调从代码到长文本,内容生成质量的提高。

无论是图像生成、代码生成还是小说生成,今天的模型更强调「结构正确、风格统一、过程透明」,简言之就是大模型基础能力的夯实。

而在推理和基础能力之外,大模型还在快速补齐智能体所需的基础能力,就比如工具调用。不管是豆包「动态搜索」的工具调用能力,还是 Gemini 在 SWE-Bench 中构建多步骤程序的能力,本质上都是在为「模型能自主执行任务」做准备。

从这轮更新看,大模型的「智能体化」正在成为下一场大竞赛的起点,而基础能力的全方位补齐,正在让这场竞赛变得越来越像是「拼内功」的长期战役。

而且确信的是,ChatBot 不是大模型的终点,而是 AI 代理,或者说 AI 智能体才是大模型真正无处不在的入口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
钱再多有什么用?赵本山一家4口如今现状,给所有中老年人提了醒

钱再多有什么用?赵本山一家4口如今现状,给所有中老年人提了醒

心灵的触动a
2026-03-19 10:35:16
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

谛听骨语本尊
2026-03-26 13:15:59
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
6种“降脂针”被纳入医保,哪些情况不能报销?

6种“降脂针”被纳入医保,哪些情况不能报销?

PSM药盾公益
2026-03-24 23:21:49
新型啃老正流行,67岁大妈哭诉:女儿的陪伴式养老是我晚年的噩梦

新型啃老正流行,67岁大妈哭诉:女儿的陪伴式养老是我晚年的噩梦

惟来
2026-03-25 09:45:12
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
挂断王毅电话,伊朗向全球发出“照会”,小萨拉曼鼻子都气歪了

挂断王毅电话,伊朗向全球发出“照会”,小萨拉曼鼻子都气歪了

始于初见见
2026-03-25 19:50:34
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
第21次1000赛四强!萨巴伦卡横扫晋级,背靠背跻身阳光双赛半决赛

第21次1000赛四强!萨巴伦卡横扫晋级,背靠背跻身阳光双赛半决赛

全景体育V
2026-03-26 08:39:10
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

共工之锚
2026-03-26 00:57:32
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

行者聊官
2026-03-26 11:56:25
6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

林子说事
2026-03-26 09:42:20
台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

照亮你的前行之路
2026-03-23 00:17:18
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
张雪峰离世,商业版图被扒,北京房产被贱卖,巨额资金流向曝光

张雪峰离世,商业版图被扒,北京房产被贱卖,巨额资金流向曝光

萧獻记录风土人情
2026-03-25 17:00:54
2026-03-26 13:47:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36591文章数 811952关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
房产
手机
公开课

艺术要闻

哪一座桥不是风景?

本地新闻

春日吃花第三站——广东

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版