被低估的Hy3 preview：腾讯基模能力正在重回牌桌|算法|hy|智能体|知名企业|人工智能模型

被低估的Hy3 preview：腾讯基模能力正在重回牌桌

2026-04-27 19:41:22　来源: 钛媒体APP

北京举报

分享至

文 | 划重点KeyPoints，作者｜林易，编辑｜重点君

上周，腾讯混元Hy3 preview发布并开源。坦白讲，第一波行业讨论并没有想象中热烈，毕竟在GPT-5.5和DeepSeek V4前后脚上线的夹击下，一个不到300B参数的预览版似乎很难激起太多水花。

我们拿着这款模型，在复杂推理、代码开发、智能体落地三大核心场景做了几天的深度实测，最终得出一个结论：行业普遍低估了这次更新的分量。

在我们看来，这是腾讯大模型彻底重构的拐点，是属于腾讯的Gemini 2.5时刻。

大家一定记得谷歌大模型曾经的窘境。2023年底初代Gemini高调发布，本欲对标GPT-4改写行业格局，却因演示内容争议、实测能力不及预期陷入口碑泥潭，在此后一年多时间始终被GPT系列全面压制，这家AI领域的老牌巨头一度被行业唱衰 “掉队”。但随着DeepMind创始人哈撒比斯全面接管AI核心研发，对AI业务从组织架构到技术路线的全链路推倒重构，打破算法研发与算力基建的部门壁垒、砍掉冗余管理层级、推翻初代模型的路径依赖、重构训练体系与研发范式，最终凭借Gemini 2.5实现了核心能力的飞跃，重回全球大模型第一梯队。

现在，腾讯正在经历类似的时刻。据我们了解，Hy3 preview之后，腾讯下一代基础大模型参数将更大，综合能力将大幅提升。

实测之后，最强的感受是“稳了”

先说复杂推理。

我们给Hy3 preview的第一类题，是多条件、多轮推翻的推理任务：一家公司有5个部门、8个项目、12个人员，项目之间存在排期依赖、预算约束和人员冲突，要求模型给出可执行排期，并解释为什么某些方案不可行。

这类题最容易暴露模型的问题，前面算对，后面忘条件；局部合理，整体冲突；看起来写了一大段，真正落到执行表格里全是漏洞。

Hy3 preview的表现不算惊艳到碾压，但有两个明显变化：一是它会主动拆任务，把约束条件先列出来；二是在发现冲突时，会回到原条件里重新校准，而不是硬编一个答案。

这一点很关键，毕竟在Agent时代，模型最怕是太会说，错了还说得很完整。

第二类是代码。

我们让它写一个小型数据分析脚本：读取多张表，清洗异常值，按照不同维度生成统计结果，并给出可视化建议。进一步提高难度后，又让它根据报错信息修复依赖、字段缺失和边界条件。

这部分最明显的变化是，Hy3 preview不再像过去一些通用模型那样只会写一段看起来像代码的代码。它能理解任务结构，也能在报错后定位问题，修复思路比较清楚。

虽然在复杂工程项目里还不能说已经达到顶级Coding Agent水平，但对腾讯自己的开发者工具、办公智能体而言，已经到了可用性明显提高的区间。

第三类是智能体。

我们设计了一个更接近真实办公的场景：用户只说一句“帮我整理这周竞品动态，输出一页汇报提纲”，模型需要自己拆成搜索、筛选、去重、归纳、生成标题、压缩成汇报提纲结构等步骤。测试重点是它能不能在长链路中不跑偏。

Hy3 preview在这类任务上给人的感觉是开始有执行感了。它会区分哪些信息该进入正文，哪些只是背景；会把任务拆成阶段；也能在中间结果不完整时提示需要补充，而不是直接脑补到底。

这就是我们说的Gemini 2.5时刻，可以说是底层能力终于能支撑真实应用往前走。

三个月完成推倒重来

很多人不知道，Hy3 preview从预训练启动到正式发布，只用了短短三个月。

而在大模型行业，完成一次完整的底座模型训练与迭代，行业常规周期至少在6个月以上，当年Meta、谷歌完成模型体系的重构，更是花了6-12个月的时间。

能在三个月完成这场极限挑战，核心原因在于，腾讯对混元大模型做了一场彻头彻尾的推倒重来，而非在上一代版本上的缝缝补补。

这场重构始于组织与人才体系的彻底洗牌。前OpenAI明星研究员姚顺雨出任腾讯首席AI科学家后，首先收拢了分散的AI研发力量，撤销原有AI Lab，将AI Infra部与大语言模型部合二为一，打破了算法研发与基础设施割裂的壁垒。

同时，团队推行极致的扁平化管理，取消总经理、总监等管理层级头衔，全面实行方向负责人制，决策链路大幅缩短，跨部门协作效率实现了质的飞跃。

其次是技术底座与训练范式的全面重建。

Hy3 preview没有沿用任何上一代的训练框架，Agent系统几乎从零搭建，预训练与强化学习的AI Infra基础设施、数据集全部重新开发。技术路线上，团队选择了经过行业验证的MoE混合专家架构，总参数295B，激活参数仅21B，在保证能力的同时，把推理效率做到了极致，全栈优化后推理效率较上一代提升40%。

更关键的是训练范式的底层转向：从过去重度依赖SFT监督微调，全面转向以RL强化学习为核心的后训练体系。如果说SFT是给模型灌输标准答案，那RL就是教会模型独立判断、解决未知问题。

这让模型摆脱了刷榜强、实战弱的困境，在千变万化的真实场景中，拥有了持续进化的能力。

三个月完成全链路重构，不仅证明了腾讯团队的工程化能力，更意味着这套全新的研发体系已经跑通。后续的正式版、更大参数的迭代版本，都能在这套体系里实现快速落地，腾讯的模型迭代速度，只会越来越快。

预览版还只是开胃菜

很多人只盯着Hy3 preview的参数和榜单数字，却忽略了一个关键信息：这只是一个预览版，真正的重头戏还在后面。

而腾讯能在大模型赛道实现长期追赶，最核心的底牌，是国内无人能及的全场景应用生态。

目前，Hy3 preview已经成为腾讯十余款核心产品的首选模型，这在混元的历史上还是第一次。从C端的元宝、QQ、腾讯文档、微信读书，到B端的CodeBuddy、WorkBuddy、腾讯云，再到垂类场景的和平精英AI NPC、微信公众号AI分身、腾讯智能客服，这款预览版模型已经完成了全场景的快速落地。

在元宝对话场景，模型带来了更具活人感的交互体验，不仅能精准理解用户的模糊需求，还能在多轮对话中保持情商在线、内容贴合语境；在腾讯文档AI PPT 场景，模型生成成功率提升20%，耗时缩短20%，彻底解决了过往内容幻觉、主题偏离的问题；在和平精英的游戏场景，AI NPC不仅能精准完成人设扮演，还能适配局内复杂的对战场景，回复节奏完全贴近真实玩家；在企业办公场景，CodeBuddy、WorkBuddy凭借模型的能力升级，首Token延迟降低54%，端到端时长降低47%，能稳定驱动数百步的复杂Agent工作流。

而这只是开始。腾讯手握微信、QQ两大国民级入口，覆盖社交、游戏、广告、金融、办公、生活服务等几乎所有互联网场景，每天触达十亿级用户。一旦“真实场景- 用户反馈 - 模型训练 - 能力升级 - 更多场景”的正向飞轮彻底转起来，腾讯大模型的长期进化潜力，是纯做底座的模型厂商无法比拟的。

AI大模型的竞争，是一场旷日持久的马拉松。这个赛道里，从来没有永远的领先者，也没有永远的落后者。真正决定长期胜负的，是能不能找对正确的方向，能不能完成持续的自我迭代，能不能把模型能力转化为真实的用户价值。

Hy3 preview的发布，可以说是让腾讯重回牌桌的起点。它证明了腾讯已经找对了实用为王的正确路线，完成了从组织到技术的全链路重构。

腾讯有领先的人才队伍，不缺数据，正在补齐算力短板，还有丰富的应用场景，随着时间推移，做不出顶尖大模型的概率只会越来越小。

接下来，当模型能力与腾讯的场景生态完成深度咬合，这场属于腾讯的AI反击，才刚刚拉开序幕。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.