来源:市场资讯
(来源:至顶AI实验室)
这两天的AI圈新闻,让我大有一种“是不是看错日期“的感觉。
4月23日,腾讯悄悄上线了混元Hy3 Preview,这是姚顺雨加入腾讯后主导推出的第一款模型,直接把之前的混元模型推倒重来,24日凌晨,OpenAI甩出GPT-5.5,号称史上最强模型,仅仅过了几个小时,沉寂了15个月之久的DeepSeek 终于千呼万唤始出来,推出了V4模型,直接开源的同时,以超长上下文抢占风头。
这种密集程度,春节档都没这么刺激。
三家在同一个时间窗口抢跑,再结合重点推出的能力,其实在释放一个信号,大模型竞争已经从“聊天”转换成了“干活”。
![]()
腾讯混元Hy3 Preview:推倒重建
作为ReAct 理论的提出者,姚顺雨的到来,为混元大模型注入了新的活力,他上任后第一件事不是迭代,而是直接把混元推倒重建,团队制定了三条原则:能力体系化、评测真实性、性价比追求,说白了就是,不追求榜单好看,而是要解决真实世界的问题。
![]()
作为腾讯混元大模型重构后的第一个产物,Hy3 preview 最明显的标签就是它的架构:快慢思考融合”的混合专家模型(MoE),总参数295B,激活参数21B,支持256K上下文。
代码和Agent是这版模型提升最猛的两个方向,背靠腾讯云、文档、QQ 浏览器、游戏等海量场景,它天生就适配国内企业的办公、游戏、内容生产等真实需求,目前已经在腾讯内部数十款产品中落地,还接入了主流开源Agent 生态。
综合来看,Hy3最适合需要处理大量中文复杂语境的场景,以及腾讯生态深度使用者。
OpenAI GPT-5.5:降维打击?
OpenAI以往的模型升级几乎都逃不过一个规律——能力越强,延迟越高,成本越贵。GPT-5.5这次基本打破了这个魔咒,官方数据说,在实际服务中它的延迟跟GPT-5.4持平,但智能水平大幅跃升,而且完成同样任务消耗的token量明显减少。
![]()
GPT-5.5的定位非常清楚:面向复杂专业任务,官方强调,它在coding、research、information synthesis、data analysis、document-heavy tasks 等任务上有明显提升。
用OpenAI总裁布罗克曼的话说,用户不用再小心翼翼地拆任务、一步步指挥,只需下达一个模糊的多步骤指令,模型就能自己规划、调工具、检查结果,一直推进到任务完成。
同样的,开发编程也是GPT-5.5一个主力卖点,数据显示,GPT-5.5在Terminal-Bench 2.0上拿了82.7%,比上一代高了近8个点,比Claude Opus 4.7高出13个点。同时,Codex的周活用户已经超过400万,两周前还只有300万,这本身也说明了,开发领域一直是OpenAI的重要战场。
所以,高阶开发者、需要处理复杂任务的自动化场景,以及追求极致性能并且不差钱的个人用户可以上手了。
DeepSeek V4:性价比之王
DeepSeek V4这次发了两个版本:Pro版1.6T参数、49B激活;Flash版284B参数、13B激活,两个版本都原生支持100万token上下文,而且全部开源。
多说一句,把百万上下文做成标配这件事本身就很酷,
一年前,百万上下文还是Gemini的独门绝技,开源阵营根本玩不起这个量级,DeepSeek V4用一种全新的注意力机制,在token维度做压缩,把计算和显存需求大幅降了下来,从而实现了百万级别的上下文。
![]()
能力方面,DeepSeek明确表示自己落后于GPT-5.4和Gemini 3.1 Pro大约3到6个月。
但据说它在开源阵营里确实是最强的,Agent能力已经可以比肩部分顶级闭源模型,很多真实的使用用户反馈说,Agent Coding体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。
DeepSeek V4核心优势就是开源自由+ 极致性价比,最适合个人开发者、中小企业,以及需要做本地化部署、数据隐私要求高的团队。不用花大价钱订阅闭源服务,就能拿到接近顶级水平的能力,还能自由二次开发,对预算有限但想深度用AI 的团队来说,几乎是最优解。
另外,DeepSeek-V4从模型设计之初就深度适配国产算力,其完整版(V4-Pro)计划运行在华为昇腾950系列芯片上,对于必须使用国产算力的场景与企业来说无疑是个好消息。
为什么所有模型都在押注Coding和Agent?
我们可以发现,今年发布的模型,不管是这三家还是此前的GLM-5,Kimi K2.6、阿里Qwen3.6,几乎都在强调同一件事:代码能力和Agent。
这个趋势不是巧合,原因也很简单,这是大模型最容易变现、也最容易证明价值的两个方向。
写代码是天然适合大模型的任务,代码有明确语法,有可运行结果,有测试反馈,有工程上下文,模型写得好不好,不用争,跑一下就知道。同时企业也愿意为代码效率付费,毕竟程序员时间贵,研发流程长,bug 成本高。
而Agent是让模型从给答案进化到干活的关键能力,说白了,一个只会写诗、写方案的模型,商业价值天花板是看得见的,但一个能帮你写代码、调工具、跨系统完成任务、甚至独立交付一个可运行产品的模型,它就不只是助手了,而是生产力工具。
到底应该选谁?
这可能是最难的选择题,没有绝对的赢家,只有适不适合。
如果只问能力,毫无疑问,GPT-5.5 仍是最强选手,它的模型能力、产品体验、工具生态和安全体系都更成熟,适合高要求、复杂、多步骤的专业工作,如果不差钱,可以直接选。
如果问国内企业落地,腾讯Hy3 preview 值得重点观察,因为它不只是单个模型,而是腾讯云、办公、社交、内容、游戏、企业服务的全场景训练场,模型能不能越用越强,腾讯有这个条件。
如果是问性价比,DeepSeek V4 肯定最值得拥有,尤其是对希望控制成本、做本地部署、搭建Agent 的团队。
所以答案不应该是三选一,而是要看场景,
日常办公、复杂研究、专业分析,优先GPT-5.5。
腾讯生态、企业应用、云上落地,重点看Hy3 preview。
代码开发、Agent 产品、本地化部署、成本敏感场景,DeepSeek V4 更值得。
如果只是聊聊天、写写文档、偶尔问点问题,说实话,这三个模型在日常对话层面的差距,我们大概率感受不到。
AI圈现在的卷法,已经不是按年计,甚至不是按月计了,五一还未到,这三个模型或许只是AI五一档的前站。
但可以确定的是,大模型的下半场,不在基准数据上,而在工作流里。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.