腾讯混元3幕后：一场回归"基本"的架构重构|冗余|知名企业

腾讯混元3幕后：一场回归"基本"的架构重构

2026-05-12 08:52:17　来源: 全栈遛狗员

北京举报

分享至

八年前Meta就有万亿参数模型了——这个冷知识放在今天的大模型竞赛里，反而成了最扎心的注脚。当整个行业都在追逐下一个技术奇点时，腾讯混元3（Hy3）却选择了一条反方向的路：不是往前冲，而是往回退。

今年3月，混元团队内部对新版本的预期"不算太高"。一个月后，Hy3 Preview版本正式发布并开源，而功能更全面的闭源旗舰版将在五六月亮相。这个发布时机堪称微妙——前有GPT 5.5举世围观，后有DeepSeek V4重磅回归，混元甚至因为在"9.7减9.11"这类小学数学题上翻车，在社交平台上被围观了一阵。

但发布时间点的尴尬，远不及技术路线的转向来得关键。据混元内部人士透露，Hy3"基本上把之前的架构重构了一遍"，用一句话概括：回到了"基本"。

这里的"基本"有明确所指。业界的共识架构是Transformer加Full Attention，OpenAI的实践路径证明，少做花哨操作、把数据做到极致才是正解。而四个月前的Hy2阶段，腾讯却走了另一条路：尝试Multi-Token Prediction、Mamba等架构创新，反而把数据和基础设施（Infra）的"基础题"放下了。

姚顺雨的到来改变了这一局面。他主导模型重新采用经过验证的共识架构，同时把数据和Infra这两门"必修课"补了回来。

数据层面的补课尤为"脏累"。据腾讯内部人士透露，过去大量SFT（监督微调）数据未经去重，重复冗余条目一度高达上千万条，工期紧张时数据优先级总被后置。姚顺雨拉起20余人的预训练数据团队，专做审核清洗，几个月内将冗余SFT数据压缩到一万多条规模。

Infra层面同样动刀。他另组团队重构腾讯RL（强化学习）管线，让万卡集群跑得稳定、安全，具备应对突发情况的能力。此前腾讯TEG内部使用的"太极"机器学习平台，近期也以一到两周一次的频率迭代更新。

这些底层功夫反映在Benchmark上：腾讯内部测试显示，混元性能已可达Kimi 2.5水平，超越MiniMax，仅次于Gemini和Seed 2.0。

姚顺雨的角色不止于技术领袖。组织架构上，混元被拆分为预训练、后训练、Baseline Infra、模型评估和Frontier五大板块，除Frontier偏技术探索外，其余十几个组以扁平结构全力投入Hy3研发。人员层面，他从字节、阿里、DeepSeek、Kimi等团队招揽核心人才，尤其青睐信仰AGI、技术扎实的年轻人，大量校招生和实习生加入。

这位被评价为"亲历亲为、关注技术细节"的领导者，眼下打的并非与巨头正面交锋的战役，而是一场从底层补短板、填漏洞的追赶战。腾讯的"逆袭"没有捷径，沉下心打磨基本功，或许是重回第一梯队的唯一路径。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.