网易首页 > 网易号 > 正文 申请入驻

Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升 | 前沿在线

申敏儿婚后首个活动

0
分享至



编辑:腾讯混元

4月23日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。

今年 2 月,我们重建了预训练和强化学习的基础设施,以及模型追求实用性的三个原则:

能力体系化:我们不推崇“偏科”,因为即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

评测真实性:我们主动跳出易被“刷榜”的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的“真实战斗力”。

性价比追求:实用性离不开商业合理性,我们深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。

Hy3 preview 是我们重建后训练的第一个模型,也是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。

·详细Bench数据和Case可访问混元博客(https://hy.tencent.com/hy3-preview)了解更多。

复杂推理

推理能力是模型解决各种问题的基础。Hy3 preview 在FrontierScience Olympiad、IMO Answer Bench 等高难度理工科推理任务中表现突出,并在最新的清华大学求真书院数学博资考(26春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩,展现出可泛化的强推理能力。


上下文学习和指令遵循

在各种真实的生产与生活场景,理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于我们多种业务场景的灵感,我们提出了 CL-bench 和 CL-bench-Life 来创新性地评估模型的上下文学习能力,并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。


· 更多Case可访问混元博客(https://hy.tencent.com/hy3-preview)了解。

代码和智能体

代码和智能体是 Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,我们以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等主流搜索智能体基准中取得了强竞争力的结果。


在数字世界中,代码关注的是模型在开发环境中的执行能力,搜索则聚焦于开放信息空间中的检索、筛选与整合能力,两者共同决定了模型在复杂智能体场景(例如OpenClaw)中是否真正具备可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等评测中表现突出,进一步表明我们的智能体能力的全面与实用性。


除了公开榜单,我们进一步构建了多个内部的评测集,对模型在真实开发场景中的表现进行评估。结果表明,无论是在后端工程任务集 Hy-Backend,贴近真实用户开发交互的 Hy-Vibe Bench,还是高难度软件工程开发任务集 Hy-SWE Max上,Hy3 preview 均体现出了强竞争力。


比较各个开源模型的大小与智能体综合表现,Hy3 preview 展现出高性价比。


Case

prompt:请帮我使用微信小程序原生框架(或指定框架)开发一个完整、可直接编译运行的徒步路线与旅游计划推荐小程序,请一次性输出包含 app.json 等全局配置、所有页面(WXML/WXSS/JS/JSON)以及完整的 Mock数据,核心需求包括:一个带有精美图片轮播、‘当季推荐’及‘路线难度’分类导航的首页;一个包含行程时间轴、精美沿途图库、适宜季节与装备建议的路线详情页;以及一个支持本地缓存收藏功能的个人中心页,UI设计需清新自然、图文并茂,请确保代码逻辑闭环、无缺失文件或引用错误,生成后我可以直接导入微信开发者工具成功预览并体验完整交互。

模型输出


自然对话和用户理解

在探索智能上限的同时,我们始终关注模型与人的交互和对人的理解。为此,我们与元宝团队进行了深度的合作,使用 URM (User-Feedback RM) 对用户的真实反馈进行建模,并结合 RLHF 技术进行了细粒度的优化。结合推理、长文、指令、智能体等能力的优化,这带来了用户体验的大幅提升:Hy3 preview 的事实性错误显著降低,能更精准理解用户的模糊意图和碎片化的输入,回复风格更加共情,内容更具深度。在元宝的灰度测试上,我们看到 Hy3 preview 在元宝用户活跃度上较之前模型实现了大幅增长。

· 更多Case可访问混元博客(https://hy.tencent.com/hy3-preview)了解。

产品的上线和初步反馈

Hy3 preview 已在元宝、CodeBuddy、WorkBuddy、QQ、ima、QQ浏览器、腾讯文档、腾讯乐享上线,并在微信公众号、腾讯新闻、腾讯自选股、和平精英、腾讯客服等多个产品陆续上线中。另外,Hy3 preview 已支持流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等。


元宝产品经理 Logan 表示,Hy3 preview 研发过程中,混元与元宝进行了深度Co-Design。一方面针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面对文风、文笔、情商、内容组织和内容专业度上进行了精细化调优。模型与产品的深度协同,为用户带来了更智能且更具“活人感”的交互体验。


ima 产品经理 kaycee 表示,目前 ima 已经接入Hy3 Preview,在 ima 知识库问答和通用问答两个场景下,测试结果显示,Hy3 preview 处理长文的能力出色,特别是检索类任务,在回答信息的准确性、覆盖度和全面性上表现较好。


在CodeBuddy、WorkBuddy 产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、成功率提升至 99.99%+。实际用户环境中,Hy3 preview 已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。


微信公众号产品经理 Astrid 表示,在公众号AI 分身和 AI 客服的场景专项评测中,Hy3 preview 展现出相比 Hy2更全面的能力升级。新模型在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟,面对模糊提问、短句追问和多轮对话时,能够更准确地把握用户诉求,并输出更清晰、更稳定的回复。结合知识库、用户记忆与上下文生成回答时更贴合AI 分身和 AI 客服的角色,过度脑补、主观代入和情绪化表达显著减少,使整体交互体验更贴近“可信、自然、高效”的回复目标。


和平精英AI玩法负责人jessexue表示,Hy3 preview 模型上线后,和平精英第一时间在 AI NPC 场景中完成接入并开展评测,整体表现令人印象深刻。在游戏局外的人设扮演场景中,Hy3 preview 不仅能够精准理解角色设定,还能针对开放性问题输出高度关联、富有增量价值的内容,带来了更加真实、自然、沉浸的对话体验。而在游戏局内的复杂对战场景中,模型回复节奏贴近真实玩家聊天体验,展现出优秀的稳定性与出色的拟人化扮演能力,整体效果表现亮眼。


腾讯文档AI Agent 研发负责人 Johnny 表示,Hy3 preview 模型上线后,腾讯文档 Agent 团队围绕核心场景开展综合评测,以 AI PPT 场景为例,Hy3 preview模型较上一版本(Hy2)取得了显著进步:生成成功率提升 20%,评测得分提升 10%,同时生成耗时缩短 20%。整体而言,新模型在评测场景中表现优异,在模版选择,色彩匹配,生成大纲,补充内容多个阶段,均体现出优秀的表现,无幻觉,契合主题,视觉效果好,展现了明显的技术突破,后续应用值得期待。


QQ AI助手 小Q产品负责人Tea表示,Hy3 preview 相较上一代Hy2,在小Q助手场景上,新模型在长文本首字节时延、整体响应速度与流式输出效率方面显著优化;核心能力上,数学推理表现提升尤为明显,多场景指令遵循与泛化能力进一步增强;在工具调用推理及多轮指代消解方面表现更稳定高效,在 OpenClaw官方 PinchBench QQ智能体场景测试中取得突出效果,综合体验实现明显跃升。

开源、API、Token Plan

Hy3 preview 的模型权重、代码已在 GitHub、HuggingFace、ModelScope、GitCode 等平台开源,支持 vLLM、SGLang 等主流推理框架,开发者可以直接下载使用。(详细链接见文末)

得益于模型架构和推理框架的深度协同,以及我们在推理框架、算子性能、量化算法等方面的优化,Hy3 preview 的成本相比上一代模型大幅下降。在腾讯云上,我们推出了有竞争力的 API 价格以及定制化的 Token Plan,个人版定价最低28元/月。



Hy3 preview 是我们重建的第一步。虽然模型效果已经取得了巨大进步,但仍存在一些已知问题,我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯更多产品的深入协同,持续改进模型在真实场景中的实用性并探索差异化能力。

欢迎大家体验并给我们反馈。

附:开源和 API & Token Plan 链接

  • Github:https://github.com/Tencent-Hunyuan/Hy3-preview

  • Hugging Face:https://huggingface.co/tencent/Hy3-preview

  • ModelScope:https://modelscope.cn/models/Tencent-Hunyuan/Hy3-preview

  • GitCode:https://ai.gitcode.com/tencent_hunyuan/Hy3-preview

  • 腾讯云TokenPlan接入地址:https://console.cloud.tencent.com/tokenhub/tokenplan/hy?regionId=1

  • 腾讯云API接入地址:

    https://console.cloud.tencent.com/tokenhub/models/detail?modelId=hy3-preview&regionId=1

前沿动态前沿大会
前沿人物

「在看」,给前前加鸡腿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
擦边女月入30W,自称也是好女孩

擦边女月入30W,自称也是好女孩

微微热评
2026-05-01 11:13:01
多名投资者上百万元资金无法提现,长城易趣拍爆雷调查

多名投资者上百万元资金无法提现,长城易趣拍爆雷调查

中国能源网
2026-04-25 11:43:05
74岁老人邮轮上突发急症离世:爆火的海上旅行,被低估的医疗风险

74岁老人邮轮上突发急症离世:爆火的海上旅行,被低估的医疗风险

新京报
2026-04-30 17:51:49
西交大,就业变天了!

西交大,就业变天了!

勋哥教你填志愿
2026-05-01 18:09:19
申京喷詹姆斯软蛋哨,詹姆斯回怼:火箭全队就你没资格说这话

申京喷詹姆斯软蛋哨,詹姆斯回怼:火箭全队就你没资格说这话

懂球帝
2026-05-01 17:04:15
5月1日俄乌:俄罗斯正在认清现实,特朗普不想再装了

5月1日俄乌:俄罗斯正在认清现实,特朗普不想再装了

山河路口
2026-05-01 18:36:01
根据53年前颁布的这项法案,今天以后特朗普还能继续打伊朗吗?

根据53年前颁布的这项法案,今天以后特朗普还能继续打伊朗吗?

齐鲁壹点
2026-05-01 08:27:13
蔚来遭索赔2.5亿美元!

蔚来遭索赔2.5亿美元!

新浪财经
2026-05-01 15:12:36
以色列终究没要那些血粮!参联会主席承认:俄罗斯帮伊朗对抗美军

以色列终究没要那些血粮!参联会主席承认:俄罗斯帮伊朗对抗美军

鹰眼Defence
2026-05-01 16:43:31
一动不动!五一最堵6大景点第1名堵到怀疑人生,第5名直接劝退

一动不动!五一最堵6大景点第1名堵到怀疑人生,第5名直接劝退

奇思妙想草叶君
2026-05-01 18:03:35
金靖回应瘦到认不出:我只能说梦想成真了

金靖回应瘦到认不出:我只能说梦想成真了

韩小娱
2026-05-01 17:24:35
罗永浩喊话西门子:24小时内给消费者满意答复,否则带摄制组了解情况并全程拍摄;此前网友求助称其所购洗碗机辅材未获批,售后维权无果

罗永浩喊话西门子:24小时内给消费者满意答复,否则带摄制组了解情况并全程拍摄;此前网友求助称其所购洗碗机辅材未获批,售后维权无果

大风新闻
2026-05-01 12:47:15
为了得到大哥的妻子旺达,伊卡尔迪究极付出了多大的代价?

为了得到大哥的妻子旺达,伊卡尔迪究极付出了多大的代价?

罗氏八卦
2026-05-01 18:05:03
美政府高官突然宣布“敌对行动已结束”,从未起效的这部法律“管”得住特朗普吗?

美政府高官突然宣布“敌对行动已结束”,从未起效的这部法律“管”得住特朗普吗?

红星新闻
2026-05-01 15:51:37
荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

抽象派大师
2026-04-30 00:16:18
孙杨私生子风波升级,处处忍让的张豆豆,终究不再顾及所谓体面

孙杨私生子风波升级,处处忍让的张豆豆,终究不再顾及所谓体面

一盅情怀
2026-04-30 15:59:37
消费降级只存在互联网上?五一旅游大军各地刷卡,景区人山人海!

消费降级只存在互联网上?五一旅游大军各地刷卡,景区人山人海!

眼光很亮
2026-05-01 12:41:16
太猛了!胡明轩11分钟轰17分,广州队完全防不住

太猛了!胡明轩11分钟轰17分,广州队完全防不住

体育哲人
2026-05-01 20:46:41
民宿以“蛇很多”等理由劝退预订客户,官方通报

民宿以“蛇很多”等理由劝退预订客户,官方通报

界面新闻
2026-05-01 08:33:01
担心的事发生了,俄方提议遭特朗普拒绝,两国总统早已留好退路?

担心的事发生了,俄方提议遭特朗普拒绝,两国总统早已留好退路?

近史博览
2026-05-01 13:47:03
2026-05-01 21:00:49
前沿在线 incentive-icons
前沿在线
前沿在线官方账号,关注AI、机器人、智能车等前沿领域;
190文章数 1235关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

游戏
旅游
艺术
时尚
军事航空

PS主机独占漫威大作官宣重磅惊喜:周日见!

旅游要闻

五一“微度假”受热捧|惠民县田园景区日迎万人 无动力设施成亲子游新宠

艺术要闻

Nikolai Vryasov:当代俄罗斯画家

她们看起来气血好足,每套搭配我都想抄

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版