网易首页 > 网易号 > 正文 申请入驻

真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

让OpenClaw帮干活还不够,现在,程序员们正想方设法让龙虾自己变强

注意注意!还不是某个任务上的单点提升,这次有人直接给整个智能体套一层在线强化学习系统MetaClaw

不用自己维护GPU集群、不用数据集也无需人工微调,让AI跟你聊着聊着就能自己变聪明。



这种新的学习模式就是把用户和AI的日常对话直接变成训练数据,整个学习循环全在后台完成,也不耽误正常使用。

咱平时跟AI该聊啥聊啥,MetaClaw会默默拦截OpenClaw的交互过程,给每一轮对话打分,再通过在线微调优化AI的决策策略。

而且它还吃一堑长一智,要是AI哪句话翻车了,MetaClaw会自动扒完整的交互轨迹,分析问题出在哪,然后自动生成一个新技能存进技能库。

下次再遇到类似的坑,相关技能会被精准搜索出来注入系统提示,同款错误直接拜拜。



技能注入+技能进化

模型底座基于Kimi-2.5构建,同时也准备了Qwen3-4B这个轻量级替代方案,低配设备也能跑。

核心机制是自研的SkillRL技能增强强化学习框架,说白了就是技能注入+技能进化的组合拳。

  • 技能注入:每轮对话里精准匹配相关技能指令,不用等训练结束,AI当场就能优化表现;
  • 技能进化:让AI从被动接收指令变成主动生成技能,技能库越用越丰富,能力水涨船高。



而最吸引人的,是不依赖本地GPU集群,不用自己维护这个设定。

MetaClaw把所有训练任务全甩给了Tinker云平台,训练和部署彻底分家。

只要你的设备能连上网,就能跑通整个系统,不用操心算力,也不用专门的工程团队盯着维护。

这波直接把AI持续学习的门槛干到了地板级,普通人也能养出会进化的龙虾了。

除此之外,MetaClaw的细节设计也很懂开发者的痛点。

异步架构+双学习模式,把服务、奖励建模和训练彻底解耦,AI一边给用户实时响应,后台一边做打分和优化,“工作学习”两不耽误。

学习模式也给足了选择,想轻量化就用强化学习,从用户隐式反馈里优化;想深度提升就用在线策略蒸馏,结合高质量文本反馈进阶。

主打一个你想怎么训就怎么训。

三步上手

用起来还贼简单,就3步。

第一步先安装依赖,前面的是常规服务和大模型相关库,跑API、发请求、接大模型都用得上。

后面的tinker和tinker-cookbook是关键,这是云端LoRA训练的SDK。

  • - pip install fastapi uvicorn httpx openai transformers
    - pip install tinker tinker-cookbook

第二步运行配置脚本将OpenClaw网关指向MetaClaw的代理,比较推荐的是Kimi2.5.

  • - bash openclaw_model_kimi.sh

第三步是设置Tinker API密钥,直接跑训练脚本。

  • - export TINKER_API_KEY=”xxx”
    - cd /path/to/metaclaw
    - python examples/run_conversation_rl.py

搞定,之后你只需要像平常一样和Agent聊天,MetaClaw会自动收集对话轮次、评分、训练模型。

每攒够一批样本就热替换一次权重,全程无需人工干预。

如果想启用技能注入,只需在配置中设置:

  • - config = MetaClawConfig(use_skills=True)

想开始技能进化,可以设置(以GPT5.2为例):

  • - config = MetaClawConfig(
    use_skills=True,
    enable_skill_evolution=True,
    azure_openai_deployment=”gpt-5.2”,

然后配好密钥:

  • - export AZURE_OPENAI_API_KEY=”xxx”
    - export AZURE_OPENAI_ENDPOINT=”https://your-endpoint.openai.azure.com/“

所有配置项都集中在MetaClawConfig中,包括模型选择、LoRA参数、批次大小、训练步数、损失函数类型等,一目了然。



好好好,这下变成真·养虾了(doge)。

MetaClaw这项工作由姚骅修领导,他是电子科技大学校友,现任UNC计算机科学系的助理教授,曾在Stanford AI Lab做博士后,专注于Agent和具身AI。

项目地址:https://github.com/aiming-lab/MetaClaw


[1]https://x.com/BoWang87/status/2031094971630235941
[2]https://x.com/HuaxiuYaoML/status/2031069599651729905

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梦回巅峰!哈登连拿7分杀死比赛!全场起立欢呼,骑士保留悬念

梦回巅峰!哈登连拿7分杀死比赛!全场起立欢呼,骑士保留悬念

体坛小李
2026-05-10 07:00:48
广西一小区门口路面突然塌陷,女业主连人带车掉进坑受伤;目击者:塌陷时我刚把孩子从那个地方抱开十来秒

广西一小区门口路面突然塌陷,女业主连人带车掉进坑受伤;目击者:塌陷时我刚把孩子从那个地方抱开十来秒

大风新闻
2026-05-09 18:44:08
你让我反诈,可诈我的人是你

你让我反诈,可诈我的人是你

柴差说
2026-05-10 06:34:18
南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

兵叔评说
2026-05-09 13:21:06
昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

天天热点见闻
2026-05-09 18:41:26
张文宏:此次疫情核心在于传播路径异常;“洪迪厄斯”号邮轮8人发病3死,“室内房间不能随意开窗”;西班牙称接收工作“一切准备就绪”

张文宏:此次疫情核心在于传播路径异常;“洪迪厄斯”号邮轮8人发病3死,“室内房间不能随意开窗”;西班牙称接收工作“一切准备就绪”

大象新闻
2026-05-10 08:46:41
第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

澎湃新闻
2026-05-09 21:40:28
台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

风向观察
2026-05-09 13:29:53
这才是现场摄影师该干的事!

这才是现场摄影师该干的事!

贵圈真乱
2026-05-10 09:38:47
英国大选,绿党被“夺舍”

英国大选,绿党被“夺舍”

南文视界
2026-05-09 22:43:03
长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

揽星河的笔记
2026-05-07 20:18:36
揪心!冻死在4600米雪山的重庆32岁女子,生前本有4次活命的机会

揪心!冻死在4600米雪山的重庆32岁女子,生前本有4次活命的机会

另子维爱读史
2026-05-09 18:03:47
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

火山詩话
2026-05-08 21:39:02
为啥我国有两个中央军委

为啥我国有两个中央军委

袁老师说历史
2026-05-10 08:18:05
002428,十倍股,磷化铟概念龙头爆发(附名单)

002428,十倍股,磷化铟概念龙头爆发(附名单)

数据宝
2026-05-10 08:13:14
46岁女星自曝"私处整形":只因觉得"不对称"

46岁女星自曝"私处整形":只因觉得"不对称"

追星雷达站
2026-05-09 10:36:38
倪萍母亲节广告翻车!国民妈妈变惊悚画风,脸部畸形,太恐怖了

倪萍母亲节广告翻车!国民妈妈变惊悚画风,脸部畸形,太恐怖了

魔都姐姐杂谈
2026-05-09 20:34:59
普京:伊朗战事让俄罗斯“处境复杂”

普京:伊朗战事让俄罗斯“处境复杂”

环球网资讯
2026-05-10 06:56:42
2026-05-10 11:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12597文章数 176461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

媒体:高市要建日版"中情局" 不仅是为重启"军国主义"

头条要闻

媒体:高市要建日版"中情局" 不仅是为重启"军国主义"

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

消失已久的陈宝国,近况曝光惹人揪心

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
时尚
健康
家居
军事航空

本地新闻

用苏绣的方式,打开江西婺源

越减越胖的人 ,被“0糖0脂”做局了

干细胞能让人“返老还童”吗

家居要闻

菁英人居 全能豪宅

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版