三个多月前,混元团队决定:从底层开始推倒重建。
预训练,重建。强化学习,重建。基础设施,重建。
今天,是重建后的第一个成果亮相:Hy3 preview(点击可前往官网直接体验)。
先说结论
一个 快慢思考融合 的混合专家模型。295B总参数,21B激活参数,256K上下文——这也是混元迄今最智能的模型。主打全面实用性, Agent能力 大幅提升。
![]()
|几个硬指标
复杂推理:扎实拿下硬核考场
推理是一切能力的底座。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科榜单上表现突出,并在真实考场里也拿到了好成绩:
![]()
清华大学求真书院数学博士资格考(26春)— 国内模型最高分 全国中学生生物学联赛 CHSBO 2025 — 优异
榜单和真实考场双线验证,说明这个能力不是应试刷出来的,是结构性地变强了——你让它推导论文里的公式,或者帮娃讲解高难度题目,大概率都够用。
代码与 Agent:以更快的速度补齐关键能力
Agent 是这次迭代中提升最为明显的方向之一。写代码、查资料、用工具完成任务,它是真能帮你干活了。复杂的多步骤信息查找任务——比如跨网页对比、筛选、归纳,这次也一步补齐。
输入一句Prompt,就能拿到一个能在微信上跑的小程序,甚至是小游戏。
Prompt:我想做一个在小星球上采集建设的小游戏, 玩家降落在云层上的荒芜小星球,通过摇杆移动,自动采集草木矿石,消耗资源自动建造。配以清新画面和轻快音效。
在腾讯文档AI助手“开物AI”输入一句Prompt,即可直接撰写 ppt。
输入一句Prompt,就能拿到一个能在微信上跑的小程序。 Hy3 preview 一次性输出所有页面代码和配置文件,导进微信开发者工具直接就能预览。不用来回反复调。
![]()
Prompt:帮我做一个徒步路线推荐小程序,要有首页轮播、路线详情页、收藏功能。
Hy3 preview 一次性输出所有页面代码和配置文件,导 进 微信开发者工具直接就能预览。不用来回反复调。
技术同行看细节:SWE-Bench Verified、Terminal-Bench 2.0、BrowseComp、WideSearch 等主流评测中均取得有竞争力的结果。
![]()
代码能力评测
![]()
Agent综合能力评测,Hy3 preview 展现出高性价比
长上下文与指令遵循:真实场景里见真章
真实场景里的信息永远是杂乱的:一份会议纪要里塞着七八条隐藏前提,一段旅行计划里藏着预算突变,一个任务描述里混着"谁这周请假""谁那周加班"……
项目规划、旅游总结、读书记录、聊天规划、业务转型...Hy3都能抽丝剥茧把话语中的意向和需求线索挖出来,不漏掉、不瞎猜。准确帮你总结成ToDo(待办事项)。
![]()
想看更多真实生活的case?点击这里前往了解。
|自然对话:让聊天多点人味
以前的回复总有点"机器味"——你说"最近状态不好",它给你列五条建议。
现在,Hy3 preview 会先接住你的情绪,再往下聊。
你让它写东西,机器味淡了;你问它问题,比喻更生动,举例更贴切。
倾诉的时候它不再端着,写东西 AI 腔淡了,回答问题比喻更生动——更像一个在认真倾听、思考接话的人。
|你在用的这些产品,已经换上新模型了
元宝
写作、闲聊、搜索全面升级。日常聊天、写东西、查资料——聊天更有"活人感",答非所问少了。
"更懂你的意思,写出来的东西更有人味。"
—— 元宝产品经理
CodeBuddy / WorkBuddy
响应速度快了将近一半,还能稳定跑完将近 500 步的复杂任务。腾讯内部工程师已经在日常用它写代码,内部盲评胜率 55%–56%。
"首次响应快了 54%,任务完成时间缩短 47%,成功率 99.99%+"
—— CodeBuddy/WorkBuddy 产品经理
ima
丢进去一份几万字的文档,不管是在知识库还是通用问答,该找的找得到,该总结的总结得全。
"处理长文的能力出色,回答的准确性、覆盖度和全面性都表现很好。"
—— ima产品经理
![]()
|Hy3 Preview重建的三个原则
能力体系化
不推崇"偏科"——即使是代码 Agent,背后也是推理、指令、长文、对话多能力的协同。
评测真实性
Benchmark 高分 ≠ 好用。主动跳出易被刷榜的公开榜单,通过自建 50+ 套评测体系、最新考试、人工评测、产品众测评估真实战斗力。
追求性价比
深度协同模型架构与推理框架,大幅降低任务成本,让智能用得起、用得好。
|还开源了,开发者可以直接用
Hy3 preview 的推理效率提升40%。模型权重和代码已在 GitHub 、Hugging Face等全部开源,免费下载。
想通过 API 调用的话,腾讯云TokenHub有专属套餐:
![]()
输入最低1.2元/百万tokens,输出最低4元/百万tokens。对大多数个人开发者来说,28 元一个月基本够用了。
|这里只是开始
Hy3 preview 是一个起点。
混元团队正在持续扩大预训练和强化学习的规模,更大尺寸的模型也已经在训练中。与此同时,将通过与腾讯更多产品场景的深入 co-design,持续改进模型在真实场景中的表现。
![]()
欢迎使用,欢迎挑刺
你们用出来的反馈,比我们自己测出来的,更具价值。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.