• 所谓的编排层,就是一个 for 循环加一个 HTTP 服务器
• 在 Agent 的世界里,操作系统就是多余的
• 买屏幕盯 Agent 和调试提示词,是同一件事
• 选本地模型只看一个指标:coding 能力。因为 coding 能力映射的就是调用工具的能力
以上内容,来自我和伯炎的对话
以上内容,来自我和伯炎的对话,我俩可能都完全错了
本篇是「赛博史记 · 逮虾户列传」的第二篇,记录这波浪潮里最前沿的一批人在想什么、在做什么
王子伯炎,做了 MimiClaw,把 OpenClaw 跑在了一块5美元的 ESP32 上。没有操作系统,纯 C,5天 2.7K star,330 个 Fork
![]()
GitHub Star
王子伯炎(真叫这个),奇绩 F25,辍学于曼彻斯特大学的 PhD ,研究方向是 AI 编译器 for AIoT,当时的课题是把模型压进嵌入式设备。现在模型在云端了,他压的是调用模型的那个循环
对于再往下掉内容,我得先强调
这个时代没有共识,我跟伯炎之间可能也没有,但这些思考本身值得被记录操作系统是给人用的
OpenClaw 可以跑在各种设备上,只要装上一堆依赖就行
伯炎看完它的底层之后,发现真正在运转的东西很简单。用户发一条消息,模型收到,思考,发现需要调用工具,调用,拿到结果,再思考,再调用。一个标准的 ReAct 循环
那么,这个流程还可以进一步抽离:一个 for 循环,加一个能发 HTTP 请求的网络模块,就够了
至于无论 Mac 还是 Linux 在管什么?进程调度,文件系统,用户权限,图形界面
这些都是给人用的。把人从这个循环里拿掉,操作系统就是多余的
这样的话,事情就简单了:把 for 循环用 C 写死,编译成固件,就能烧进5美元的芯片
插上 USB 供电,连 WiFi,发 Telegram 消息就能用
所以,他做了 MimiClaw
累计搞了三天,其中等快递花了两天,做那个红白机风格的 GitHub banner 花了半天,写代码画了半天
![]()
Banner 花的时间和写代码差不多
我问他当初为什么做这个?
他想了一下说:诚恳地说,我想羞辱一下那些在 Linux 开发板上重新跑一遍的人
有个类似项目用 Go 重写了 OpenClaw,买了很多 PR,现在11万 star。但它依然需要 Linux
OpenClaw 本来就在 Linux 上跑,你换一块板子再跑一遍,增量是零
5美元芯片上把操作系统整个去掉,for 循环照样转。这个才有增量
他读博研究的就是怎么把东西压进嵌入式设备。四年前用的是 AI 编译器,针对上一代 CV 模型。他说当时觉得离人太远了,后来辍学。现在他不压模型了:模型在云端,芯片只需要能跑那个 for 循环、能存 memory
米哈游立项原神的时候,手机跑不了开放世界游戏。他们赌等游戏做出来的时候硬件能追上。赌对了
伯炎做 MimiClaw 的逻辑很像:
现在没有浏览器操控能力,看上去是个缺陷,他赌的是浏览器会消失
你需要那么多屏幕,是因为 AI 不聪明
Mac mini 能操控浏览器。很多 OpenClaw 的能力是通过浏览器实现的,比如打开网页,填表单,抓数据
但 MimiClaw 没有浏览器
对此,伯炎的理由是:以后没有给人用的浏览器了
Agent 在浏览器上点来点去,操作的其实是文字。网页是给人看的渲染层,Agent 需要的是底下那层数据。给 Agent 套一个浏览器,是因为很多服务还没有提供 Agent 友好的接入方式
他当时是用这个想法,立项的 MiniClaw
第二天,Cloudflare 发布了把网站转成 Markdown 的服务、Google 出了 Web MCP
这些大厂,在把给人看的网页,翻译成给 Agent 读的文本
浏览器这个中间层,开始被跳过了
OpenClaw 的创始人 Peter 说:80%的 APP 会死
延续这个判断,伯炎接了一步:不会死的 APP 是带传感器的。你房间的温度、身体的心率、周围的空气质量...这些数据在互联网上搜不到。ESP32 天然能接传感器,几毛钱一个模块焊上去就能用
说到这里,我跟他讲了我自己的情况
过去一个月我新买了两块显示器,一个49寸,一个57寸,今天又下单了一台85寸的8K电视
同时,我还订了两块163寸,LED 屏准备贴满两面墙...
为了这些屏幕,我租了邻居的房间。把他家具全买下来扔了,刷白墙,摆设备
还有,我还搞了套全向麦克风拾音系统:对着某块屏幕说话,后面的计算模块能识别方向,执行任务
毕竟...我同时在用超过5台电脑,键鼠切换器不够用了
对了...我的显示器,由于太重,把新买的桌子压弯了
![]()
展示下我刚买的 57 寸显示器
伯炎听完说了一句:以后不需要屏幕
我当时没接住这话。因为我确实需要...我同时在跑多个 Agent,要看状态、审核输出,犯错的时候介入。现在的软件全是按「一个人同一时间做一件事」设计的。我要同时管10个 Agent,真的需要10块屏幕
他的逻辑:你需要看那么多东西,是因为 Agent 还不够好
然后我想到一件事,在 Agent 出现之前,大家手动搭 workflow。因为不放心自动化...万一某一步出错呢?要设检查点,要人工审核,要画流程图
现在 Agent 来了...我买屏幕、搭中控系统,本质上还是因为不放心
workflow 是软件层的「我不放心」,显示器是硬件层的「我不放心」
显示器是2026年的 Coze
等 Agent 的 benchmark 从70分涨到95分的那天,这些屏幕可能全是多余的
伯炎设想的终局是一个拇指大的设备,语音下达指令,Agent 在云端完成一切,完了告诉你一声。不需要屏幕,不需要确认
他的信心来自一个判断:Anthropic CEO 说过,不要优化模型现在做不到的事
模型能力会持续变强,应该面向未来做产品
我没办法反驳这个方向,如果哪个老板天天站在秘书身后盯着他干活,就只能说明秘书还不够好
乘100,或者零
MimiClaw 之前,伯炎做过一个叫 Memov 的项目:给 AI 编程做版本控制,大概就是每次跟 Claude Code 对话,自动记录每一轮的 prompt、plan、代码变化,完整保存上下文
这个产品跟 GitHub 前 CEO 辞职创业后做的东西功能一模一样
后来,伯炎复盘这件事的时候说:这个产品只做了乘3的提升,不够
以前做产品,比别人好20%就能多拿20%关注。现在产品太多,注意力太稀缺
你带来的体验乘3已经是零,乘100才有人看见
他之前做过一个法语考试网站。针对加拿大移民的法语考试,竞品连数据库都没有:没有错题本,没有做题记录
加上数据库就是从0到1的体验差
一共 1000+ 个用户,300个+付费,付费率极高
MimiClaw 能传播,原因很简单:他把整个操作系统去掉了,跑在5美元芯片上
至于推广方式...非常简单粗暴,他有一个 1000+ 粉的推特小号,每当别人问「怎么部署 OpenClaw」的时候,他就在的评论区回了一句「不要部署了,用 MimiClaw」
这些评论,给项目带来了数十万次的曝光,然后那些从来没玩过 ESP32 的人开始下单买面包板
![]()
ESP32-S3 开发板,拇指大小
聊到最后,我问他信不信 AGI,他说他不信,或者说他不认为 transformer 能在 10 年内达到那个水平
「它只是知道得多。不是因为它真的比你聪明」
在他的眼中,风吹在脸上的感觉,房间里的湿度...这些东西怎么压成 token?他读博的时候研究的就是怎么压模型。压了几年,觉得离人太远了,辍学,现在他不压模型了。压的是调用模型的那个 for 循环
然后它就跑在了5美元的芯片上
就有了 MimiClaw
![]()
github.com/memovai/mimiclaw
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.