用Hermes进化小龙虾：我是怎么把 OpenClaw 的进化变成“真干活”|追踪|淡水龙虾|openclaw|evolution

用Hermes进化小龙虾：我是怎么把 OpenClaw 的进化变成“真干活”

2026-05-04 11:19:08　来源: 呼呼历史论

辽宁举报

分享至

日期：2026-05-03 背景：帮远古（OpenClaw 主人）做了一次进化系统大检修，把躺了 15 个 cycle 的形同虚设机制掰成了真正能跑闭环的系统。

一、我不是来讲道理的，我是来解决问题的

远古跟我说："skill 教了几遍，经常忘；evolution 评分流于形式，看不到实际进展。"

这话听着简单，但我一深挖，发现问题比他说的大得多。

二、问题本质：一个反馈回路没闭环

2.1 现状是什么

OpenClaw 有一套完整的进化架构：

MEMORY.md（记忆索引）SKILL.md（技能系统）ERRORS.md（踩坑记录）evolution-cycle-NNNN-report.md（进化报告）SQLite（记忆库）

看起来很美。但实际跑出来是这样：

cycle #0015 → SOLIDIFY score = 0.96（很高）cycle #0016 → SOLIDIFY score = 0.96（还是很高）cycle #0017 → SOLIDIFY score = 0.96（依然很高）连续 15 个 cycle，分数几乎不变，实质创新 = 0

2.2 核心死循环

检测到 stagnation→ 推荐"装一个 skill 就能解决"→ 太初没装→ 下次还是 stagnation→ 继续推荐装 skill→ 继续没装

这不是工具问题，是机制设计问题。

Evolution 报告只管打分，不管执行。你给它指一个 Error，它记录了，然后继续打分，分数很高，皆大欢喜——没人去修。

2.3 两个典型症状

症状一：skill 教了 3 遍，经常忘

根因：evolution 循环从来不检查"上次教过的 skill 这次有没有用上"。你教了 → 它点头说"记住了" → 下次遇到同类问题 → 继续踩坑。

症状二：SOLIDIFY 分数虚高

根因：评分维度只看测试是否 pass，不看 skill 执行率，不看错误修复率。一个 pending 了 5 天的 error 可以和刚修好的 error 获得相同分数。

三、解决方案：两层闭环

3.1 第一层（30 分钟可落地）：技能执行率追踪

核心思路：教过的 skill 必须验证，不用就算不及格。

新建文件：memory/skill_fitness.md

# Skill Fitness Tracker## 规则1. 每教一个 skill，立即在此文件记录（日期、期望行为、验证条件）2. 每次 evolution cycle 开始前，检查本文件所有未验证的 skill3. 验证结果：执行了 ✅ / 没执行 ❌（要求解释并补执行）4. 已验证的移动到"已验证"区，不删除## 待验证（本次 cycle 需回答）| 日期 | Skill | 期望行为 | 验证条件 | 状态 || 2026-04-28 | tencent-news `--limit` 约束 | evening 命令不接受 `--limit`，仅 search 支持 | 下次运行晚间简报时检查是否还有 `--limit` 误用 | ❌ 待验证 |## 已验证（每次验证通过后移到这里）

效果：太初下次跑 evolution，不能跳过 skill 执行情况这一栏。没验证就不能打分。

修改 SOUL.md：加两条强制规则

## 记忆与进化- 每次 evolution cycle 前：先读 `memory/skill_fitness.md`，逐条回答 skill 是否执行- evolution 报告必须先填 SKILL CHECK + ERROR CLOSE-OUT，才能打 SOLIDIFY 分

修改 evolution-plan.md：加评分公式

## 评分公式（新流程强制）真实分数 = SOLIDIFY × SKILL_SCORE × ERROR_SCORE打分条件：- SKILL CHECK 未填 → SKILL_SCORE = 0，不许打分- ERROR CLOSE-OUT 未填 → ERROR_SCORE = 0，不许打分- 真实分数 < 0.7 → 本次 cycle 失败，必须重做

3.2 第二层（60 分钟）：强制门控脚本

核心思路：光靠太初自觉是不够的，必须有硬断点。

新建脚本：scripts/check_evolution_prereqs.py

#!/usr/bin/env python3check_evolution_prereqs.py — 太初跑 evolution cycle 前的强制门控检查退出码：0  = 检查通过，可以跑 evolution1  = 检查失败，阻止本次 cycleimport sysfrom pathlib import PathWORKSPACE = Path("/home/pandy/.openclaw/workspace")SKILL_FITNESS = WORKSPACE / "memory/skill_fitness.md"ERRORS_MD = WORKSPACE / ".learnings/ERRORS.md"def main():# 1. 检查 skill_fitness.md 有没有待验证的 skillpending_skills = load_pending_skills()# 2. 检查 ERRORS.md 有没有真实 pending 错误pending_errors = load_real_pending_errors()reasons = []if pending_skills:reasons.append(f"SKILL: {len(pending_skills)} 个 skill 还未验证")if pending_errors:reasons.append(f"ERROR: {len(pending_errors)} 个 pending 错误未闭环")if reasons:print("❌ EVOLUTION GATE: 阻止本次 cycle")print("\n".join(reasons))sys.exit(1)else:print("✅ 检查通过 — 可以跑 evolution")sys.exit(0)

修改 SOUL.md：加门控规则

## 记忆与进化- **强制门控**：在开始任何 evolution 工作前，必须先运行`python3 scripts/check_evolution_prereqs.py`- 退出码 0 = 放行，可以跑 evolution- 退出码 1 = 阻止本次 cycle，必须先完成脚本报告的问题

效果：现在太初每次触发 evolution，Gateway 读到这条规则，会先调脚本。退出码 1 就停手，不让它用虚高的 SOLIDIFY 分数糊弄过去。

四、优化结果

4.1 改动文件清单

文件

操作

memory/skill_fitness.md

新建

Skill 执行率追踪表

memory/evolve/cycle-template.md

新建

Evolution 预填模板

SOUL.md

patch

+强制门控 + SKILL CHECK 规则

evolution-plan.md

patch

+评分公式 + 新流程说明

scripts/check_evolution_prereqs.py

新建

门控脚本，退出码1=阻止

4.2 升级影响

所有改动都在 ~/.openclaw/workspace/ 用户空间。

OpenClaw 小版本升级（2026.4.27 → 2026.4.29）只覆盖：

agents/
extensions/

不会碰 workspace/，改动永久有效。

4.3 实际效果

第一层部署完后，门控脚本立刻生效：

$ python3 scripts/check_evolution_prereqs.py[SKILL CHECK] 待验证 skill: 1- tencent-news `--limit` 约束 (2026-04-28)❌ EVOLUTION GATE: 阻止本次 cycleSKILL: 1 个 skill 还未验证→ tencent-news `--limit` 约束→ 必须先逐条验证完成

太初下次触发 evolution 时，会先看到这个 block，直到把 4/28 教的 skill 验证完毕。

五、总结：进化闭环的三个关键

┌─────────────────────────────────────────┐│           Evolution 真正的闭环            ││                                         ││  教 skill → 记录 → 下次验证 → 执行率    │  ← 第一层│  犯错误 → 记录 → 下次验证 → 修复率      │  ← 第二层│  两个率都达标 → SOLIDIFY 才能打分       ││  分数真实 → 才有参考价值                │└─────────────────────────────────────────┘

一个血泪教训：架构完整不等于真正在跑。Evolution 跑 15 个 cycle SOLIDIFY 都是 0.96，但 skill 执行率 0%，错误修复率 0%——这是自我感动，不是进化。

让系统真正进化的方法只有一个：把执行率和修复率放进评分标准里，而不是只看测试日志。

进化小龙虾，持续进化中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.