4月30日,Nous Research 把一个“训练范式”的闸门直接掀开,Hermes 4.3 36B 正式开源。它不是那种靠玄学堆规模的开源,反而用 24 台普通电脑节点,拼出一个分布式训练网络,然后跑出更聪明的结果。参数少一半,性能还反超自家 70B,训练效率还摸到 144k tokens秒,关键是 Apache 2.0 全线开源,商用零限制。更狠的是,他们故意让同一套能力走两遍路,一遍集中式,一遍 Psyche 去中心化网络,结果分布式赢了,像是在宣告,未来模型生产的“工厂模式”会变。
![]()
当下异动之后,得把历史翻回去。开源模型过去几年最常见的叙事是两条路,规模上去,算力铺满,或者数据合规后再谈“可用”。但这次 Hermes 4.3 36B 的关键不在“能跑”,在“怎么生产”。它走的是 Psyche 分布式训练网络,24 个节点分布全球,用 Solana 区块链做共识协调,用 DisTrO 优化器把梯度在公网上传。P2P 通信开销不单独摊账,而是被隐藏进训练时间里,最后你看到的是 144k tokens秒的训练速度,效率跟集中式没差,甚至略优。换句话说,系统层面先把“把网络当工厂”这件事做成了,再把模型能力交付给开发者。
时间跳一下,你会发现这类路线其实不是凭空冒出来。早期在分布式学习里,真正难的从来不是训练本身,而是协同的治理成本。集中式方案把治理外包给一台大集群,调度、同步、梯度聚合都能在同一套系统里完成。去中心化方案则反过来,先要解决“谁可信、谁对齐、谁不拖后腿”,再谈训练吞吐。Solana 这种把共识协调拆成链上可验证机制的思路,在这里扮演的是“协同规则的底座”。它的价值不在“更快”,在“让分布式训练能持续运行”。你看他们敢用公网上传梯度,敢说通信开销被隐藏进训练时间,这意味着网络抖动、带宽波动、节点异步等问题,至少在工程上被压住了。
![]()
再往产业里看,Hermes 4.3 36B 的第二个炸点更直接。对比 Hermes 4(70B)与 Hermes 4.3(36B),参数从 70B 到 36B,直接少一半。训练方式从传统集中式,变成分布式 + Solana 区块链,再叠加 DisTrO 优化器的梯度传输机制。训练效率的基准位置反而没被打下去,144k tokens秒的数字说明它不是“规模小了就掉队”的常识路线。超长上下文上,36B 给到 512K,这不是“能对话”,而是把应用门槛往上抬,面向复杂检索、长文档推理与 Agent 工作流更有用。RefusalBench(拒答测试)这一栏,他们给出 SOTA(目前最高分)的表述,而 Hermes 4 的该项未公布。更刺眼的,是安全审查限制的差异,集中式体系里往往存在统一审查卡脖子,而开发者在这里可以自定义安全边界,自由度更高。你要是把这点当成“合规口味差异”,那就会错过它的产业含义,这是一种控制权转移。
利益拆解要落到两个层面,一个是技术控制权,一个是商业控制权。技术控制权上,去中心化训练让“模型生产能力”不再完全绑定少数中心化算力与训练平台。过去你想做训练,要么租算力,要么接供应链,训练过程高度依赖单一组织的治理。现在通过 Psyche 用全球 24 节点协作,训练网络本身就像一条可以被多方接入的生产线。说白了,门槛从“拿得到 GPU”部分迁移到“你能否参与并稳定协作这个网络”。这会削弱少数平台对训练产能的垄断,提升边缘参与者的议价空间。你想想看,这类网络越成熟,模型更新节奏越可能加快,供应链越难被单点卡死。
商业控制权上,Apache 2.0 的开源许可是底盘,Hermes 4.3 明确是零限制商用。过去开源模型的“商用能力”常常被各种条款间接约束,或者在工程部署上用安全策略做软性拦截。这里他们把“可以用”写得非常硬。更有意思的是,搭配 OpenClaw。原文给的时间点很明确,OpenClaw 在 2026.4.29 刚发新版,而 Hermes 4.3 原生支持。OpenClaw 的承诺也很工程化:原生支持 Discord 飞书 微信,记忆系统像 Wiki 一样懂你,数据不出门、不限量、不审查。你要把这些话换成行业现实翻译,它意味着 Agent 可以自托管,意味着客户不必把数据交给第三方服务端,也不必在服务端接受统一审查。ChatGPT Pro 一个月 $200?这套方案标的是免费。这里的冲突点不在“谁更聪明”,在“谁掌握数据路径与部署路径”。谁控制路径,谁就控制成本曲线,成本曲线决定生意能不能长期存在。
这一切落到终局预判上,就会变得冷酷。第一,去中心化训练如果能持续做到效率持平乃至略优,参数缩减的逻辑会被强化,36B 干翻自家 70B 的对比就不只是营销,它是在给行业一个信号,规模堆砌的边际效益正在被压缩。第二,512K 上下文与 RefusalBench 的 SOTA叙述,意味着小参数模型在对齐与长上下文应用上也能拿到更高性价比,这会改变很多团队的选型惯性。第三,Apache 2.0 零限制加自定义安全边界,再叠加 OpenClaw 的自托管 Agent 组合,会把“模型产品”从云端服务向本地化、自治化迁移。你以为这是功能升级,其实是权力回流。
所以结尾不绕弯。去中心化不是换个口号,它是把训练与部署两道关卡重新定价,一旦效率和能力同时站稳,旧的集中式生产线就会在成本与节奏上先被边缘网络挤出竞争半径。行业的宿命很简单,下一代不是谁更会堆算力,而是谁更会把生产权从中心拿回来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.