八年前Meta就有万亿参数模型了——这个冷知识放在今天的大模型竞赛里,反而成了最扎心的注脚。当整个行业都在追逐下一个技术奇点时,腾讯混元3(Hy3)却选择了一条反方向的路:不是往前冲,而是往回退。
今年3月,混元团队内部对新版本的预期"不算太高"。一个月后,Hy3 Preview版本正式发布并开源,而功能更全面的闭源旗舰版将在五六月亮相。这个发布时机堪称微妙——前有GPT 5.5举世围观,后有DeepSeek V4重磅回归,混元甚至因为在"9.7减9.11"这类小学数学题上翻车,在社交平台上被围观了一阵。
![]()
但发布时间点的尴尬,远不及技术路线的转向来得关键。据混元内部人士透露,Hy3"基本上把之前的架构重构了一遍",用一句话概括:回到了"基本"。
这里的"基本"有明确所指。业界的共识架构是Transformer加Full Attention,OpenAI的实践路径证明,少做花哨操作、把数据做到极致才是正解。而四个月前的Hy2阶段,腾讯却走了另一条路:尝试Multi-Token Prediction、Mamba等架构创新,反而把数据和基础设施(Infra)的"基础题"放下了。
姚顺雨的到来改变了这一局面。他主导模型重新采用经过验证的共识架构,同时把数据和Infra这两门"必修课"补了回来。
数据层面的补课尤为"脏累"。据腾讯内部人士透露,过去大量SFT(监督微调)数据未经去重,重复冗余条目一度高达上千万条,工期紧张时数据优先级总被后置。姚顺雨拉起20余人的预训练数据团队,专做审核清洗,几个月内将冗余SFT数据压缩到一万多条规模。
Infra层面同样动刀。他另组团队重构腾讯RL(强化学习)管线,让万卡集群跑得稳定、安全,具备应对突发情况的能力。此前腾讯TEG内部使用的"太极"机器学习平台,近期也以一到两周一次的频率迭代更新。
这些底层功夫反映在Benchmark上:腾讯内部测试显示,混元性能已可达Kimi 2.5水平,超越MiniMax,仅次于Gemini和Seed 2.0。
姚顺雨的角色不止于技术领袖。组织架构上,混元被拆分为预训练、后训练、Baseline Infra、模型评估和Frontier五大板块,除Frontier偏技术探索外,其余十几个组以扁平结构全力投入Hy3研发。人员层面,他从字节、阿里、DeepSeek、Kimi等团队招揽核心人才,尤其青睐信仰AGI、技术扎实的年轻人,大量校招生和实习生加入。
这位被评价为"亲历亲为、关注技术细节"的领导者,眼下打的并非与巨头正面交锋的战役,而是一场从底层补短板、填漏洞的追赶战。腾讯的"逆袭"没有捷径,沉下心打磨基本功,或许是重回第一梯队的唯一路径。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.