网易首页 > 网易号 > 正文 申请入驻

Anthropic把同个模型拆成2份卖,开发者测完发现1份在摸鱼

0
分享至


3秒审完75个文件,零漏洞。这速度连扫一眼文件名都不够。

开发者Mitchell Hashimoto最近干了一件事:用同一个Claude模型,分别以命令行(CLI)和API两种方式审代码。结果让他怀疑自己是不是在跟两个完全不同的AI对话——CLI版本揪出7个真bug,API版本先是哑火,后来改配置后喷出84条警告,其中大半是误报。

这事发生在他的Rust项目重构期间。20次提交、77个文件、净删4700行代码。他把这次重构丢给自研工具brunt,一个专门让AI互相找茬的代码审查系统。测试对象锁定Claude Sonnet,同一个模型家族,同一套提示词,三种接入方式。

CLI版:7条 findings,条条见血

命令行跑出来的结果干净得不像AI。

7个问题,每个都能直接进JIRA。最漂亮的一击是个Rust异步陷阱:某处调用了异步函数却漏了.await,编译器不报错,运行时直接静默丢弃Future——场景触发器永远也不会激活。Hashimoto的原话是:「这正是你希望AI审查员抓住的那种bug。」

代码长这样:

// Bug: 创建了Future但从未轮询它 state.scenario_trigger.on_activity_created( user.tenant_id, &activity, &state ); // 应该是: state.scenario_trigger.on_activity_created( user.tenant_id, &activity, &state ).await;


Rust的编译器在这里失职了。它把未处理的Future当成合法代码,程序能跑,就是逻辑永远不走。这种bug人工审查很容易滑过去,CLI版Sonnet却精准点杀。

API版:84条 findings,狼来了

切换到API通道,画风突变。

Hashimoto第一次跑API时,3秒返回零发现。75个文件,零漏洞,物理上不可能——除非所有调用都在失败。排查一小时,真相浮出水面:他用的模型别名claude-sonnet-4-6-20250514在CLI能解析,API直接404。Promise.allSettled默默吞掉了所有错误,返回空结果。

修复配置后重跑,Sonnet API版喷出84条警告。数量是CLI的12倍,质量却断崖下跌。它举报已删除代码里的bug,警告已被整体移除的函数参数问题。技术上,这些观察对孤立diff成立;实际上,依赖项在同一PR里被连带删除了。

Opus API版稍好,44条发现,8条标为critical——全是「移除模块声明会破坏依赖方」。单文件视角看成立,跨文件视角看荒谬:依赖方也被删了。模型看不见完整上下文。

同一家公司,两套神经系统

Hashimoto的测试暴露了一个反直觉的事实:Anthropic没把CLI和API做成同一套服务的两个入口。


CLI版显然带了更完整的上下文工程。它可能默认启用了代码库感知,或者prompt里嵌入了跨文件关联的隐式指令。API版则是裸奔状态,除非你手动喂给它同样的上下文——而大多数人不会,因为文档没告诉你需要这么做。

这解释了数字的荒诞对比。7对84,不是模型能力的差距,是产品形态的差距。CLI是Anthropic自己调好的相机,API是给你RAW格式自己后期。

更隐蔽的坑在于错误处理。brunt用Promise.allSettled收集结果,这本是个防御性设计,却恰好掩盖了API的404灾难。开发者拿到「零发现」还以为是代码太干净,实际上是请求全失败了。这种沉默的失败比报错更危险。

噪音是审查系统的毒药

Hashimoto的结论是工具性的,但戳中了AI工程的核心困境。

一个喊84次狼来的审查员,训练开发者无视警告。一个只报7次且次次精准的审查员,才能建立信任。这个信任成本在代码安全场景下是致命的——当AI成为主要代码生产者,审查环节的任何失效都会指数级放大。

他目前的workflow是:Claude CLI写代码,brunt+CLI版审查,人工做最终把关。API版被降级到实验性任务,Ollama本地模型直接出局。

这个选择背后有个未被言明的焦虑:如果AI写代码、AI审代码的链条里,审查环节本身不可靠,整个自动化大厦的地基就裂了。Hashimoto的测试没有解决这个焦虑,只是把它从抽象担忧变成了可量化的7 vs 84。

brunt的GitHub仓库现在有了条新issue:「调查API与CLI的行为差异」。没人回复。Hashimoto在文末抛了个问题:如果你也在用AI审AI写的代码,你确定你的审查员看的是同一页剧本吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
若没有此人,中国历史或将改写!晚年离休后享受什么待遇?

若没有此人,中国历史或将改写!晚年离休后享受什么待遇?

史之铭
2026-04-19 15:49:20
1944年刘少奇急请全军改名,毛主席为何宁犯众怒也要强行叫停?三年后全党惊出冷汗

1944年刘少奇急请全军改名,毛主席为何宁犯众怒也要强行叫停?三年后全党惊出冷汗

史海孤雁
2026-04-10 17:06:11
除台湾外,我国还有一块领土需要收回?不解决可能会出大事!

除台湾外,我国还有一块领土需要收回?不解决可能会出大事!

阿晪美食
2026-04-14 13:57:26
尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

火山詩话
2026-04-21 06:59:47
为了防中国模型,硅谷三巨头连“复仇者联盟”都整出来了?

为了防中国模型,硅谷三巨头连“复仇者联盟”都整出来了?

差评XPIN
2026-04-21 00:07:26
“爱奇艺疯了”冲上热搜,已申请角色图像生成相关专利

“爱奇艺疯了”冲上热搜,已申请角色图像生成相关专利

投资时间网
2026-04-21 11:31:26
太超前了,全国唯一!一条冲浪视频走红网络,这居然是杭州的河道?

太超前了,全国唯一!一条冲浪视频走红网络,这居然是杭州的河道?

都市快报橙柿互动
2026-04-22 00:24:21
百年巨头大裁员!超20000人或将失业

百年巨头大裁员!超20000人或将失业

DeepAuto车探
2026-04-21 11:55:23
威尔逊:我和赵心童奥沙利文特鲁姆普 是世锦赛四大夺冠热门人选

威尔逊:我和赵心童奥沙利文特鲁姆普 是世锦赛四大夺冠热门人选

罗克
2026-04-21 12:54:49
别再尬演情妇了!一脸疲态、五大三粗,这是迷倒男人该有的皮囊?

别再尬演情妇了!一脸疲态、五大三粗,这是迷倒男人该有的皮囊?

白面书誏
2026-04-14 14:09:53
阿拉维斯主帅:维尼修斯和姆巴佩特点相近,二人配合不够稳定

阿拉维斯主帅:维尼修斯和姆巴佩特点相近,二人配合不够稳定

懂球帝
2026-04-22 06:55:26
牛肉顶多注个水猪肉顶多催个肥,唯有三文鱼全程cosplay

牛肉顶多注个水猪肉顶多催个肥,唯有三文鱼全程cosplay

富贵说
2026-04-14 23:15:09
72岁洪金宝走红毯被指暴瘦,儿子回应:爸爸做了3次有益菌植入大肠手术,其间不能吃东西

72岁洪金宝走红毯被指暴瘦,儿子回应:爸爸做了3次有益菌植入大肠手术,其间不能吃东西

鲁中晨报
2026-04-21 09:16:02
等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

古事寻踪记
2026-04-22 07:14:42
生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

芹姐说生活
2026-04-21 14:45:08
申花主力阵容可能迎来久违黑马!已被视为吴曦接班人,值得期待

申花主力阵容可能迎来久违黑马!已被视为吴曦接班人,值得期待

振刚说足球
2026-04-21 14:19:42
联盟同战绩抽签结果:爵士力压国王获第四顺位

联盟同战绩抽签结果:爵士力压国王获第四顺位

北青网-北京青年报
2026-04-21 10:04:04
605336,将被“*ST”

605336,将被“*ST”

数据宝
2026-04-22 07:39:07
以色列士兵虐待巴勒斯坦妇女,意大利媒体曝光,然后被控“反犹”

以色列士兵虐待巴勒斯坦妇女,意大利媒体曝光,然后被控“反犹”

阿芒娱乐说
2026-04-22 06:30:48
发挥余热!范乔丹现身火箭训练,亲自指导阿门!2500万薪水没浪费

发挥余热!范乔丹现身火箭训练,亲自指导阿门!2500万薪水没浪费

熊哥爱篮球
2026-04-21 22:50:32
2026-04-22 07:52:49
我是一个养虾人
我是一个养虾人
有态度网友ytd
1587文章数 11关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

伊朗极限拉扯拒绝谈判 特朗普宣布:延长停火期限

头条要闻

伊朗极限拉扯拒绝谈判 特朗普宣布:延长停火期限

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

数码
本地
时尚
旅游
公开课

数码要闻

OPPO 哈苏影像新品发布会

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

顶流复工,已判若两人

旅游要闻

云南石屏神黄豆花盛放

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版