Hermes4.336B开源：24台电脑分布式训练超越70B|翻译|上下文|自然语言|hermes

Hermes4.336B开源：24台电脑分布式训练超越70B

2026-05-04 08:06:11　来源: 呼呼历史论

辽宁举报

分享至

4月30日，Nous Research 把一个“训练范式”的闸门直接掀开，Hermes 4.3 36B 正式开源。它不是那种靠玄学堆规模的开源，反而用 24 台普通电脑节点，拼出一个分布式训练网络，然后跑出更聪明的结果。参数少一半，性能还反超自家 70B，训练效率还摸到 144k tokens秒，关键是 Apache 2.0 全线开源，商用零限制。更狠的是，他们故意让同一套能力走两遍路，一遍集中式，一遍 Psyche 去中心化网络，结果分布式赢了，像是在宣告，未来模型生产的“工厂模式”会变。

当下异动之后，得把历史翻回去。开源模型过去几年最常见的叙事是两条路，规模上去，算力铺满，或者数据合规后再谈“可用”。但这次 Hermes 4.3 36B 的关键不在“能跑”，在“怎么生产”。它走的是 Psyche 分布式训练网络，24 个节点分布全球，用 Solana 区块链做共识协调，用 DisTrO 优化器把梯度在公网上传。P2P 通信开销不单独摊账，而是被隐藏进训练时间里，最后你看到的是 144k tokens秒的训练速度，效率跟集中式没差，甚至略优。换句话说，系统层面先把“把网络当工厂”这件事做成了，再把模型能力交付给开发者。

时间跳一下，你会发现这类路线其实不是凭空冒出来。早期在分布式学习里，真正难的从来不是训练本身，而是协同的治理成本。集中式方案把治理外包给一台大集群，调度、同步、梯度聚合都能在同一套系统里完成。去中心化方案则反过来，先要解决“谁可信、谁对齐、谁不拖后腿”，再谈训练吞吐。Solana 这种把共识协调拆成链上可验证机制的思路，在这里扮演的是“协同规则的底座”。它的价值不在“更快”，在“让分布式训练能持续运行”。你看他们敢用公网上传梯度，敢说通信开销被隐藏进训练时间，这意味着网络抖动、带宽波动、节点异步等问题，至少在工程上被压住了。

再往产业里看，Hermes 4.3 36B 的第二个炸点更直接。对比 Hermes 4（70B）与 Hermes 4.3（36B），参数从 70B 到 36B，直接少一半。训练方式从传统集中式，变成分布式 + Solana 区块链，再叠加 DisTrO 优化器的梯度传输机制。训练效率的基准位置反而没被打下去，144k tokens秒的数字说明它不是“规模小了就掉队”的常识路线。超长上下文上，36B 给到 512K，这不是“能对话”，而是把应用门槛往上抬，面向复杂检索、长文档推理与 Agent 工作流更有用。RefusalBench（拒答测试）这一栏，他们给出 SOTA（目前最高分）的表述，而 Hermes 4 的该项未公布。更刺眼的，是安全审查限制的差异，集中式体系里往往存在统一审查卡脖子，而开发者在这里可以自定义安全边界，自由度更高。你要是把这点当成“合规口味差异”，那就会错过它的产业含义，这是一种控制权转移。

利益拆解要落到两个层面，一个是技术控制权，一个是商业控制权。技术控制权上，去中心化训练让“模型生产能力”不再完全绑定少数中心化算力与训练平台。过去你想做训练，要么租算力，要么接供应链，训练过程高度依赖单一组织的治理。现在通过 Psyche 用全球 24 节点协作，训练网络本身就像一条可以被多方接入的生产线。说白了，门槛从“拿得到 GPU”部分迁移到“你能否参与并稳定协作这个网络”。这会削弱少数平台对训练产能的垄断，提升边缘参与者的议价空间。你想想看，这类网络越成熟，模型更新节奏越可能加快，供应链越难被单点卡死。

商业控制权上，Apache 2.0 的开源许可是底盘，Hermes 4.3 明确是零限制商用。过去开源模型的“商用能力”常常被各种条款间接约束，或者在工程部署上用安全策略做软性拦截。这里他们把“可以用”写得非常硬。更有意思的是，搭配 OpenClaw。原文给的时间点很明确，OpenClaw 在 2026.4.29 刚发新版，而 Hermes 4.3 原生支持。OpenClaw 的承诺也很工程化：原生支持 Discord 飞书微信，记忆系统像 Wiki 一样懂你，数据不出门、不限量、不审查。你要把这些话换成行业现实翻译，它意味着 Agent 可以自托管，意味着客户不必把数据交给第三方服务端，也不必在服务端接受统一审查。ChatGPT Pro 一个月 $200？这套方案标的是免费。这里的冲突点不在“谁更聪明”，在“谁掌握数据路径与部署路径”。谁控制路径，谁就控制成本曲线，成本曲线决定生意能不能长期存在。

这一切落到终局预判上，就会变得冷酷。第一，去中心化训练如果能持续做到效率持平乃至略优，参数缩减的逻辑会被强化，36B 干翻自家 70B 的对比就不只是营销，它是在给行业一个信号，规模堆砌的边际效益正在被压缩。第二，512K 上下文与 RefusalBench 的 SOTA叙述，意味着小参数模型在对齐与长上下文应用上也能拿到更高性价比，这会改变很多团队的选型惯性。第三，Apache 2.0 零限制加自定义安全边界，再叠加 OpenClaw 的自托管 Agent 组合，会把“模型产品”从云端服务向本地化、自治化迁移。你以为这是功能升级，其实是权力回流。

所以结尾不绕弯。去中心化不是换个口号，它是把训练与部署两道关卡重新定价，一旦效率和能力同时站稳，旧的集中式生产线就会在成本与节奏上先被边缘网络挤出竞争半径。行业的宿命很简单，下一代不是谁更会堆算力，而是谁更会把生产权从中心拿回来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.