烧了1600万token，我用小米Mimo V2.5让三个AI模型替我打工|代码|编程|ai模型|自然语言|agent|python|小米mimo

烧了1600万token，我用小米Mimo V2.5让三个AI模型替我打工

2026-05-06 17:06:15　来源: 呼呼历史论

辽宁举报

分享至

大家好，我是刀哥。做过大厂研发、做过出海硬件，现在深耕AI编程和AI工具。

假期我干了一件有意思的事：用小米的免费Mimo V2.5模型，从零造了一个AI Agent。不套壳，不调API，是真的从第一行代码开始，让三个不同公司的AI模型——GPT-5.5、Gemini 3.1、Claude Opus 4.7——在同一个程序里替我打工。

整个过程烧了1600万token。什么概念？大约等于让AI读了18套《三体》全集，或者写了5000篇公众号文章。（小米这波确实很大方，百万亿 Token 创造者激励计划，给了我两亿Token）

今天就用大白话，给大家讲讲这个项目是怎么回事，以及——三个AI模型到底谁更能打。

一、AI Agent到底是什么？

你用过Claude Code写代码、用过OpenClaw做自动化任务吧？这些工具的底层，其实就是一个Agent Harness——你可以理解成"AI打工人的工位"。

（梦中情位，这个龙虾的办公室真的好！）

工位上有什么？四样东西：

大脑：大语言模型（GPT、Claude、Gemini）
：能执行命令、读写文件、搜索代码
笔记本：记录之前的对话，防止AI失忆
安全锁：防止AI乱删文件、乱跑危险命令

我做的mini harness，就是把这四样东西组装起来，1000行Python代码，一个完整的AI打工人就上线了。（公众号后台回复【harness】，获取完整代码包）

二、为什么不用现成的框架？

市面上Agent框架一大堆——LangChain、AutoGen、CrewAI……但你真去看代码，动辄几万行，光依赖就有几十个包。你想搞明白"AI是怎么执行一条命令的"，光跳转文件就能把你绕晕。

mini harness的理念就一句话：删掉任何一行代码，程序就崩。

没有花里胡哨的抽象层，没有绕来绕去的继承链。1000行Python就是全部，每一行都load-bearing。

(架构图很简洁，只有6个模块，缺一不可)

# 就这么简单
pip install openai
python3 -m harness.cli "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model opus-4.7 "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model gemini-3.1 "帮我数一下harness目录下有多少行Python代码"

一个依赖，一条命令，切换模型时指定清楚模型代号，AI打工人就活了。

三、三个模型大乱斗：谁更能打？

这才是最好玩的部分。同一个任务，我分别用GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7跑了一遍，结果差距非常明显。

首先，我们需要能用同一个SDK，支持这三个大模型，怎么做呢？

1 注册一个类似openrouter、硅基流动这种new-api聚合网站，拿到key

2 使用openai的sdk，整个过程是这样的

  你的代码 (OpenAI格式) → new-api → 转换 → Claude/Gemini 原生 API

   它做的事：
  1. 收到 OpenAI 格式的请求（/v1/chat/completions，messages 结构，function calling 协议）
  2. 根据模型名匹配到对应的 channel
  3. 转换成目标 API 的原生格式（Anthropic 的 /v1/messages、Google 的 generateContent）
  4. 拿到响应后再转回 OpenAI 格式返回给你

   所以你的代码只需要用 OpenAI SDK + 改模型名，协议转换全由网关完成。这也是为什么 base_url 指向的是 openrouter/new-api 地址而不是 api.openai.com。

测试任务1：列出当前目录文件并统计大小

GPT-5.5：直接执行ls -la，一步到位，输出清晰。稳。

Gemini 3.1 Pro：它想用find . -maxdepth 1 -type f -printf '%f\t%s bytes\n'——这是Linux专用的命令，在macOS上根本跑不通。结果返回空，它还一本正经地告诉用户"当前目录下没有文件"。翻车。

Claude Opus 4.7：看到系统提示是macOS，直接用ls -alh，输出带人类可读的文件大小。最懂用户意图。

小结：Claude最聪明，GPT最稳，Gemini在这个场景下翻车了。

当然，倒腾一下，把命令弄得更准确，大家都是可以完成这个小任务的：

测试任务2：读代码并解释功能

三个模型都能完成，但风格差异很大：

GPT-5.5：像百科全书，条理清晰，但有点"教科书味"
Gemini 3.1 Pro：回答最简洁，但偶尔会遗漏关键细节
Claude Opus 4.7：最有"人味"，会主动指出设计上的取舍和潜在问题

测试任务3：写一个文件读取工具

这是个稍微复杂的任务——要处理路径安全、行号显示、超长文件截断。

三个模型都能生成可运行的代码，但只有Claude主动加了路径逃逸检测（防止AI通过../../etc/passwd读取系统文件）。GPT和Gemini都需要我额外提示才会加上。

综合评价：

Claude Opus 4.7：最强，理解意图最深，安全意识最好，适合复杂任务
GPT-5.5：最稳，中规中矩，很少犯错但也很少给你惊喜
Gemini 3.1 Pro：速度最快，成本最低，但容易在细节上翻车

四、AI打工人也有"安全锁"

这是很多人担心的问题：让AI执行命令，万一它把我的文件删了怎么办？

mini harness搞了三层防护：

白名单：ls、cat、grep这种"只看不动"的命令，随便跑。

黑名单：rm、shutdown、dd这种"核弹级"命令，直接拒绝，求都不行。

灰名单：其他命令，弹一个确认框问你"要不要跑？"。你说了算。

用大白话说就是：AI能帮你干活，但钥匙在你手里。

五、AI也会失忆，怎么办？

这是Agent最头疼的问题。你跟AI聊了50轮，context越来越大，迟早会爆——要么超出模型的上下文限制，要么token费用爆炸。

mini harness的解决方案很直觉：老的忘掉，新的记住。

就像你的大脑一样——你不会记得上周三中午吃了什么，但你会记得今天的待办事项。AI也是一样，自动把很久以前的对话"压缩"掉，只保留最近的关键信息和你的原始任务。

这个功能在跑长任务的时候特别关键。我有一次让AI连续执行了20多个文件操作，如果没有自动压缩，token早就爆了。

六、1600万token花在哪了？

说实话，大部分token都花在调试上了。

用AI写代码有个特点：它写得快，但不一定写得对。你需要反复跟它说"这里不对，应该这样改"，每一轮对话都在烧token。

1600万token的大头花在三个地方：

1.架构设计：让AI理解"我要做一个最小但完整的Agent Harness"，这个意图的传达就烧了不少token。AI一开始总是想给你加各种花里胡哨的功能，你得反复跟它说"不要，就要最小的"。
2.边界情况处理：macOS和Linux的命令差异、路径安全检测、token估算精度……这些细节每一个都要好几轮对话才能调对。
3.三个模型的对比测试：同一个任务跑三遍，每遍都是独立的token消耗。但这个过程最有价值——你真的能看出模型之间的差距。

七、小米Mimo V2.5表现怎么样？

这次开发全程用的小米Mimo V2.5作为编码助手（不是被测的三个模型，是帮我写代码的那个）。

说几个让我印象深刻的点：

理解意图很快。我说"错误要结构化，要给LLM行动建议"，它立刻理解了，给出的方案直接能用。不需要反复解释。

对设计模式有感觉。像compaction策略、approval gate这类需要架构判断的模块，它给出的方案质量很高，不是那种"能跑就行"的水平。

中文交流零障碍。跟它讨论技术方案全用中文，它不会像某些模型一样突然切换到英文。

当然也有不足：在处理一些非常新的API（比如OpenAI的最新tool_call格式）时，偶尔会给出过时的写法。但总体来说，作为编码助手完全够用。

八、这东西对普通人有什么用？

你可能会问：我又不会写代码，这玩意儿跟我有什么关系？

关系大了。

你想想——Claude Code、OpenClaw、悟空桌面版，这些你天天在用的AI工具，它们的底层就是我做的这种Agent Harness。理解了Harness，你就理解了所有AI Agent工具的底层逻辑。

以后再有人跟你说"AI会自己执行命令，太危险了"，你就可以告诉他：有白名单、黑名单、人工审批三道锁，AI跑不了危险命令。

以后再有人跟你说"AI聊多了会忘"，你就可以告诉他：有自动压缩机制，老的忘掉新的记住，不会失忆。

以后再有人跟你说"用GPT还是Claude都一样"，你就可以告诉他：完全不一样，Claude安全意识最强，GPT最稳，Gemini容易翻车。

这些认知，不需要你会写代码。

后记

做这个项目最大的收获，不是那1000行代码，而是对AI Agent的直觉。

以前用Claude Code、OpenClaw这些工具，觉得它们是黑盒——好用，但不知道为什么好用。现在自己撸了一个，才知道每一步背后都有设计取舍。

烧了1600万token，值不值？我觉得值。这1600万token不只是在写代码，更是在跟三个不同公司的AI模型深度交流。你真的能感受到它们各自的性格——Claude像个严谨的工程师，GPT像个靠谱的执行者，Gemini像个聪明但偶尔粗心的实习生。

如果你也对AI Agent感兴趣，不管是程序员还是普通用户，建议去了解一下这些工具的底层原理。不需要自己写代码，但至少知道它在干什么、为什么有时候会翻车。

这会让你在AI时代，用得更明白。

下期预告：我打算把mini harness接入了钉钉机器人，让三个模型轮流值班当电商的AI客服，看看谁被用户投诉最多，敬请期待！

#MiMo-V2.5 #AI工具对比 #编程助手 #MimoV25

创作不易，如果这篇对你有帮助，请多多支持！我们下期见！我是刀哥。做过大厂研发、做过出海硬件，现在挖掘AI圈一手更新，深耕 AI 设计、AI 编程。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.