网易首页 > 网易号 > 正文 申请入驻

烧了1600万token,我用小米Mimo V2.5让三个AI模型替我打工

0
分享至

大家好,我是刀哥。做过大厂研发、做过出海硬件,现在深耕AI编程和AI工具。

假期我干了一件有意思的事:用小米的免费Mimo V2.5模型,从零造了一个AI Agent。不套壳,不调API,是真的从第一行代码开始,让三个不同公司的AI模型——GPT-5.5、Gemini 3.1、Claude Opus 4.7——在同一个程序里替我打工。


整个过程烧了1600万token。什么概念?大约等于让AI读了18套《三体》全集,或者写了5000篇公众号文章。(小米这波确实很大方,百万亿 Token 创造者激励计划,给了我两亿Token)


今天就用大白话,给大家讲讲这个项目是怎么回事,以及——三个AI模型到底谁更能打

一、AI Agent到底是什么?

你用过Claude Code写代码、用过OpenClaw做自动化任务吧?这些工具的底层,其实就是一个Agent Harness——你可以理解成"AI打工人的工位"。


(梦中情位,这个龙虾的办公室真的好!)

工位上有什么?四样东西:

  • 大脑:大语言模型(GPT、Claude、Gemini)
  • :能执行命令、读写文件、搜索代码
  • 笔记本:记录之前的对话,防止AI失忆
  • 安全锁:防止AI乱删文件、乱跑危险命令

我做的mini harness,就是把这四样东西组装起来,1000行Python代码,一个完整的AI打工人就上线了。(公众号后台回复【harness】,获取完整代码包)

二、为什么不用现成的框架?

市面上Agent框架一大堆——LangChain、AutoGen、CrewAI……但你真去看代码,动辄几万行,光依赖就有几十个包。你想搞明白"AI是怎么执行一条命令的",光跳转文件就能把你绕晕。

mini harness的理念就一句话:删掉任何一行代码,程序就崩

没有花里胡哨的抽象层,没有绕来绕去的继承链。1000行Python就是全部,每一行都load-bearing。


(架构图很简洁,只有6个模块,缺一不可)



# 就这么简单
pip install openai
python3 -m harness.cli "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model opus-4.7 "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model gemini-3.1 "帮我数一下harness目录下有多少行Python代码"

一个依赖,一条命令,切换模型时指定清楚模型代号,AI打工人就活了。

三、三个模型大乱斗:谁更能打?

这才是最好玩的部分。同一个任务,我分别用GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7跑了一遍,结果差距非常明显。

首先,我们需要能用同一个SDK,支持这三个大模型,怎么做呢?

1 注册一个类似openrouter、硅基流动这种new-api聚合网站,拿到key

2 使用openai的sdk,整个过程是这样的

  你的代码 (OpenAI格式) → new-api → 转换 → Claude/Gemini 原生 API

它做的事:
1. 收到 OpenAI 格式的请求(/v1/chat/completions,messages 结构,function calling 协议)
2. 根据模型名匹配到对应的 channel
3. 转换成目标 API 的原生格式(Anthropic 的 /v1/messages、Google 的 generateContent)
4. 拿到响应后再转回 OpenAI 格式返回给你

所以你的代码只需要用 OpenAI SDK + 改模型名,协议转换全由网关完成。这也是为什么 base_url 指向的是 openrouter/new-api 地址而不是 api.openai.com。
测试任务1:列出当前目录文件并统计大小

GPT-5.5:直接执行ls -la,一步到位,输出清晰。稳。

Gemini 3.1 Pro:它想用find . -maxdepth 1 -type f -printf '%f\t%s bytes\n'——这是Linux专用的命令,在macOS上根本跑不通。结果返回空,它还一本正经地告诉用户"当前目录下没有文件"。翻车。

Claude Opus 4.7:看到系统提示是macOS,直接用ls -alh,输出带人类可读的文件大小。最懂用户意图。

小结:Claude最聪明,GPT最稳,Gemini在这个场景下翻车了。

当然,倒腾一下,把命令弄得更准确,大家都是可以完成这个小任务的:


测试任务2:读代码并解释功能

三个模型都能完成,但风格差异很大:

  • GPT-5.5:像百科全书,条理清晰,但有点"教科书味"
  • Gemini 3.1 Pro:回答最简洁,但偶尔会遗漏关键细节
  • Claude Opus 4.7:最有"人味",会主动指出设计上的取舍和潜在问题
测试任务3:写一个文件读取工具

这是个稍微复杂的任务——要处理路径安全、行号显示、超长文件截断。

三个模型都能生成可运行的代码,但只有Claude主动加了路径逃逸检测(防止AI通过../../etc/passwd读取系统文件)。GPT和Gemini都需要我额外提示才会加上。

综合评价

  • Claude Opus 4.7:最强,理解意图最深,安全意识最好,适合复杂任务
  • GPT-5.5:最稳,中规中矩,很少犯错但也很少给你惊喜
  • Gemini 3.1 Pro:速度最快,成本最低,但容易在细节上翻车
四、AI打工人也有"安全锁"

这是很多人担心的问题:让AI执行命令,万一它把我的文件删了怎么办?

mini harness搞了三层防护:

白名单:ls、cat、grep这种"只看不动"的命令,随便跑。

黑名单:rm、shutdown、dd这种"核弹级"命令,直接拒绝,求都不行。

灰名单:其他命令,弹一个确认框问你"要不要跑?"。你说了算。

用大白话说就是:AI能帮你干活,但钥匙在你手里

五、AI也会失忆,怎么办?

这是Agent最头疼的问题。你跟AI聊了50轮,context越来越大,迟早会爆——要么超出模型的上下文限制,要么token费用爆炸。

mini harness的解决方案很直觉:老的忘掉,新的记住

就像你的大脑一样——你不会记得上周三中午吃了什么,但你会记得今天的待办事项。AI也是一样,自动把很久以前的对话"压缩"掉,只保留最近的关键信息和你的原始任务。

这个功能在跑长任务的时候特别关键。我有一次让AI连续执行了20多个文件操作,如果没有自动压缩,token早就爆了。

六、1600万token花在哪了?

说实话,大部分token都花在调试上了。

用AI写代码有个特点:它写得快,但不一定写得对。你需要反复跟它说"这里不对,应该这样改",每一轮对话都在烧token。

1600万token的大头花在三个地方:

  1. 1.架构设计:让AI理解"我要做一个最小但完整的Agent Harness",这个意图的传达就烧了不少token。AI一开始总是想给你加各种花里胡哨的功能,你得反复跟它说"不要,就要最小的"。
  2. 2.边界情况处理:macOS和Linux的命令差异、路径安全检测、token估算精度……这些细节每一个都要好几轮对话才能调对。
  3. 3.三个模型的对比测试:同一个任务跑三遍,每遍都是独立的token消耗。但这个过程最有价值——你真的能看出模型之间的差距。
七、小米Mimo V2.5表现怎么样?

这次开发全程用的小米Mimo V2.5作为编码助手(不是被测的三个模型,是帮我写代码的那个)。

说几个让我印象深刻的点:

理解意图很快。我说"错误要结构化,要给LLM行动建议",它立刻理解了,给出的方案直接能用。不需要反复解释。

对设计模式有感觉。像compaction策略、approval gate这类需要架构判断的模块,它给出的方案质量很高,不是那种"能跑就行"的水平。

中文交流零障碍。跟它讨论技术方案全用中文,它不会像某些模型一样突然切换到英文。

当然也有不足:在处理一些非常新的API(比如OpenAI的最新tool_call格式)时,偶尔会给出过时的写法。但总体来说,作为编码助手完全够用。

八、这东西对普通人有什么用?

你可能会问:我又不会写代码,这玩意儿跟我有什么关系?

关系大了。

你想想——Claude Code、OpenClaw、悟空桌面版,这些你天天在用的AI工具,它们的底层就是我做的这种Agent Harness。理解了Harness,你就理解了所有AI Agent工具的底层逻辑

以后再有人跟你说"AI会自己执行命令,太危险了",你就可以告诉他:有白名单、黑名单、人工审批三道锁,AI跑不了危险命令。

以后再有人跟你说"AI聊多了会忘",你就可以告诉他:有自动压缩机制,老的忘掉新的记住,不会失忆。

以后再有人跟你说"用GPT还是Claude都一样",你就可以告诉他:完全不一样,Claude安全意识最强,GPT最稳,Gemini容易翻车。

这些认知,不需要你会写代码。

后记

做这个项目最大的收获,不是那1000行代码,而是对AI Agent的直觉

以前用Claude Code、OpenClaw这些工具,觉得它们是黑盒——好用,但不知道为什么好用。现在自己撸了一个,才知道每一步背后都有设计取舍。

烧了1600万token,值不值?我觉得值。这1600万token不只是在写代码,更是在跟三个不同公司的AI模型深度交流。你真的能感受到它们各自的性格——Claude像个严谨的工程师,GPT像个靠谱的执行者,Gemini像个聪明但偶尔粗心的实习生。

如果你也对AI Agent感兴趣,不管是程序员还是普通用户,建议去了解一下这些工具的底层原理。不需要自己写代码,但至少知道它在干什么、为什么有时候会翻车。

这会让你在AI时代,用得更明白。

下期预告:我打算把mini harness接入了钉钉机器人,让三个模型轮流值班当电商的AI客服,看看谁被用户投诉最多,敬请期待!

#MiMo-V2.5 #AI工具对比 #编程助手 #MimoV25

创作不易,如果这篇对你有帮助,请多多支持!我们下期见!我是刀哥。做过大厂研发、做过出海硬件,现在挖掘AI圈一手更新,深耕 AI 设计、AI 编程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

映射生活的身影
2026-05-06 19:29:52
7个项目停6个?部分城市的“智慧城市”项目为啥“投入即浪费”?

7个项目停6个?部分城市的“智慧城市”项目为啥“投入即浪费”?

澎湃新闻
2026-05-06 12:26:02
突发!再见了,恩比德!

突发!再见了,恩比德!

技巧君侃球
2026-05-07 03:21:36
44岁前国脚9年前突发脑溢血,透露近况,每天学走路努力康复

44岁前国脚9年前突发脑溢血,透露近况,每天学走路努力康复

米修体育
2026-05-06 23:59:56
5种废品价格暴涨,家里有这5样东西的,提醒身边人别乱扔了

5种废品价格暴涨,家里有这5样东西的,提醒身边人别乱扔了

小谈食刻美食
2026-05-06 07:39:22
“四川华蓥女游客玩瀑布秋千坠亡”警方介入,当地称家属已和解,目击者:其撞到瀑布凸出处大石;景区已清空账号

“四川华蓥女游客玩瀑布秋千坠亡”警方介入,当地称家属已和解,目击者:其撞到瀑布凸出处大石;景区已清空账号

大象新闻
2026-05-06 15:42:10
48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

近史博览
2026-05-06 14:42:13
5.7世乒赛:德国男团3-0日本,莫雷加德失分,张本克星

5.7世乒赛:德国男团3-0日本,莫雷加德失分,张本克星

小犙拍客在北漂
2026-05-07 03:41:29
太寒心!盐城龙凤胎事件,孩子早产,老公把彩礼8.8万骤降至3.8万

太寒心!盐城龙凤胎事件,孩子早产,老公把彩礼8.8万骤降至3.8万

魔都姐姐杂谈
2026-05-06 13:19:53
5月1日起全额缴纳社保,全民创业时代正式谢幕,但请不要难过

5月1日起全额缴纳社保,全民创业时代正式谢幕,但请不要难过

月满大江流
2026-05-06 17:01:05
湖人公布G2伤情:范德彪小概率上场 肯纳德出战成疑东契奇缺阵

湖人公布G2伤情:范德彪小概率上场 肯纳德出战成疑东契奇缺阵

罗说NBA
2026-05-07 06:12:04
荒唐至极!欧洲议会勒令废除普通话法案?中国主权绝不容外人置喙

荒唐至极!欧洲议会勒令废除普通话法案?中国主权绝不容外人置喙

行者聊官
2026-05-06 14:16:30
山东曹县男子出轨嫂子多年,全家默许唯独瞒着原配,原配透更多

山东曹县男子出轨嫂子多年,全家默许唯独瞒着原配,原配透更多

天天热点见闻
2026-05-06 13:06:23
47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

嘴角上翘的弧度
2026-05-06 19:51:52
“台独”顽固分子刘世芳亲属已被在大陆台企解职

“台独”顽固分子刘世芳亲属已被在大陆台企解职

界面新闻
2026-05-06 21:01:54
综合消息丨汉坦病毒涉疫邮轮病例数已升至8例

综合消息丨汉坦病毒涉疫邮轮病例数已升至8例

新华社
2026-05-06 22:31:33
中国财政究竟养了多少人?

中国财政究竟养了多少人?

自由评论
2026-05-06 09:05:05
丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

闪电新闻
2026-05-06 12:58:59
空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

环球网资讯
2026-05-06 13:46:09
大反转!我国学者颠覆性发现:补充Omega-3或损害大脑突触功能,加速认知衰退

大反转!我国学者颠覆性发现:补充Omega-3或损害大脑突触功能,加速认知衰退

医诺维
2026-05-06 17:13:29
2026-05-07 07:00:49
呼呼历史论
呼呼历史论
分享有趣的历史
391文章数 16964关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

伊朗:美动用所有军事手段也无法开通霍尔木兹海峡

头条要闻

伊朗:美动用所有军事手段也无法开通霍尔木兹海峡

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

游戏
旅游
教育
本地
亲子

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

旅游要闻

做好文旅增量 贵在因地制宜(子夜走笔)

教育要闻

家长别等孩子体育躺平了才想起来陪跑

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

兜儿晒女儿被说像小猪妹,一句话直接回应:她们俩都是同一个爸爸

无障碍浏览 进入关怀版