网易首页 > 网易号 > 正文 申请入驻

500美元显卡跑100次实验,AI自己把模型调好了

0
分享至

上周我把Claude塞进一个循环脚本,让它在我的RTX 3070上跑了一整夜。醒来一看,模型性能涨了25%。不是因为我变强了,是我睡觉的时候有个agent在替我试错。

这个思路来自Andrej Karpathy提过的autoresearch概念。核心就五个字:让机器去撞墙。人类做ML研究,瓶颈从来不是算力,是注意力。你想一个实验、写代码、等训练、看结果、再想下一个——这一套下来,一天能跑两轮就算高效。agent不一样,它每分钟都能完成一次完整的 propose-implement-train-evaluate-decide 循环,而且不需要睡觉。


具体怎么跑?我拆一下这个循环:

第一步,Propose。agent先看当前模型的loss曲线和各项指标,然后提议一个具体的代码改动。可能是调学习率,可能是改attention head的数量,也可能是把layer norm换个位置。

第二步,Implement。它直接写Python代码,把改动落地到PyTorch模型里。不需要我动手。

第三步,Train。在PubMed的医学文本数据上训练。数据量不大,但足够验证改动方向对不对。

第四步,Evaluate。拿新loss和基线比。有改善就进下一步,没有就回滚。

第五步,Decide。设定一个阈值,超过就保留,否则git revert。不留恋,不纠结。

第六步,Repeat。带着新的上下文,回到第一步继续。

这个循环跑了一晚上,100次实验。结果是:93次失败,7次成功。成功率7%,听起来很惨?但这就是研究的真相。人类研究者的一天,可能也就试两三个想法,还都是你觉得"大概能成"的保守选择。agent不管这些,它把我觉得"肯定不行"的路也走了一遍。

那7次成功的实验里,有些东西我确实想不到。比如一个特定的attention head配置,我自己调模型的时候从来没试过那个组合。还有batch size的调整,数值看起来很不合理,但居然work了。最打脸的是layer normalization的 placement,我原来的假设被直接推翻。

硬件成本呢?RTX 3070,8GB显存,现在二手大概500美元。CPU是普通桌面级的AMD Ryzen,32GB内存,1TB NVMe SSD。一晚上电费加Claude API调用,总共不到0.5美元。关键是我把推理放在本地跑,没有走云服务商的按量计费。如果这100次实验都扔给AWS的A100实例,账单会很难看。

代码本身很简陋,大概300行Python。Claude Sonnet负责推理和代码生成,PyTorch管训练,SQLite记实验日志,Git做版本控制。没有什么高深架构,就是循环写得好,prompt写得清楚,评估标准定得明确。

这件事给我几个挺深的体会。

第一, autonomy的前提是metrics必须清晰。你不能跟agent说"让模型更好",你得给它一个数字,一个可以比较的数字。loss、perplexity、F1,什么都行,但必须单一、可量化、无歧义。

第二,failure不是bug,是feature。93%的失败率在人类团队里会被认为是灾难,但对agent来说这只是筛选成本。当单次实验的成本趋近于零,你就可以承受极高的失败率。这和生物进化的逻辑一样:大量变异,环境选择,保留优势。

第三,consumer hardware真的够用了。不是每个研究都需要A100集群。很多改进来自于架构选择和超参组合,而不是 brute force 的算力堆砌。RTX 3070的8GB显存确实限制了模型规模,但对于实验迭代来说,速度比大小更重要。

第四,overnight是killer use case。这个场景太舒服了:晚上提交,早上收结果,白天用人脑做判断和方向选择。人和机器的分工变得明确——机器负责穷举和验证,人负责定义问题和解读模式。

如果你想复现,门槛比想象中低。需要一张GPU(3060都能跑),一个Claude或GPT的API key,一个明确的优化指标,以及调试循环的耐心。最难的部分不是写代码,是定义什么叫"更好"。很多团队卡在这里:业务指标和模型指标对不上,或者优化目标本身在漂移。

这个实验也让我重新思考"自动化研究"的边界。agent现在能做的是局部优化:在给定架构里调超参,改训练策略,试不同的正则化组合。但它还不能做架构层面的创新,不能提出全新的inductive bias,也不能判断一个研究方向值不值得投入。这些还需要人。

但局部优化已经很有价值了。很多论文里的"trick",其实就是某个超参的特定取值,或者某个模块的特定配置。这些东西靠人工网格搜索很难覆盖,靠agent的随机探索反而容易撞出来。未来可能会出现一种新分工:人类研究者负责提出假设和框架,agent负责在框架内做 exhaustive search,然后人类再从agent的发现里提炼规律。

最后说一点局限。这个实验是在PubMed数据上做的,任务相对标准。如果是更复杂的 multimodal 任务,或者需要外部工具调用的场景,循环的稳定性会下降。agent写的代码不总是对的,有时候能跑通但逻辑有bug,有时候训练到一半OOM。这些都需要监控和fallback机制。

另外,25%的improvement是相对于我自己的baseline而言。这个baseline本身没有经过仔细调优,所以提升空间比较大。如果起点已经是SOTA水平,agent能榨出来的边际收益会小很多。但反过来说,大部分实际落地的模型都远没到SOTA,这时候autoresearch的价值反而更大。

我把代码整理了一下,核心就是那个300行的orchestrator。不复杂,但prompt engineering花了挺长时间。怎么让Claude提出合理的改动建议,怎么让它写出能直接执行的代码,怎么定义"成功"的阈值,这些都需要迭代。工具本身很快,但让工具稳定工作很慢。

overnight跑100次实验这件事,以前只有大厂的研究团队能做,现在一张消费级显卡加几百行代码就能实现。这不是说个人研究者能取代团队,而是说验证想法的成本急剧下降了。你可以更快知道一个想法行不行,从而更快决定是深入还是放弃。在资源有限的情况下,这种快速试错的能力可能比单次实验的质量更重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新疆政协原副主席金之镇被“双开”:接受私营企业主提供的“管家式”服务

新疆政协原副主席金之镇被“双开”:接受私营企业主提供的“管家式”服务

界面新闻
2026-05-07 10:38:49
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
6个男人托起一座冠军!吴宜泽背后,站着奥沙利文塞尔比丁俊晖等

6个男人托起一座冠军!吴宜泽背后,站着奥沙利文塞尔比丁俊晖等

曹老师评球
2026-05-07 16:34:26
全靠内鬼,105吨假黄金骗了253亿

全靠内鬼,105吨假黄金骗了253亿

大猫财经Pro
2026-05-06 18:44:18
新加坡总理哭了,无人同情!当初对中国有多狂妄,现在就多狼狈!

新加坡总理哭了,无人同情!当初对中国有多狂妄,现在就多狼狈!

混沌录
2026-05-06 23:33:12
越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

正观历史
2026-04-29 14:04:21
高校毕业生创新高 上海打出组合拳护航就业

高校毕业生创新高 上海打出组合拳护航就业

看看新闻Knews
2026-05-06 19:32:02
“自由计划”仅一天就暂停!6日0点后,俄军仍在大规模轰炸乌克兰

“自由计划”仅一天就暂停!6日0点后,俄军仍在大规模轰炸乌克兰

鹰眼Defence
2026-05-06 16:42:01
华润燃气原副总裁李雪松被查

华润燃气原副总裁李雪松被查

新京报
2026-05-07 15:20:44
41.6 万镑周薪!曼联锁定世界第一中锋,拉特克利夫钦点!

41.6 万镑周薪!曼联锁定世界第一中锋,拉特克利夫钦点!

奶盖熊本熊
2026-05-07 06:20:34
娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

另子维爱读史
2026-04-04 21:35:59
前国乒美女名将正式退役!钱天一获72万元安置费 年初与王昶结婚

前国乒美女名将正式退役!钱天一获72万元安置费 年初与王昶结婚

全言作品
2026-05-07 17:01:56
谢文能在克雷桑收藏球上签“牛X”,克雷桑:我知道这啥意思

谢文能在克雷桑收藏球上签“牛X”,克雷桑:我知道这啥意思

懂球帝
2026-05-07 11:16:09
为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

家居设计师苏哥
2026-05-04 11:39:03
《陈翔六点半》四大元老集体出走,带货首秀百万人只看不买!

《陈翔六点半》四大元老集体出走,带货首秀百万人只看不买!

陈意小可爱
2026-05-06 14:50:57
日经225指数首次突破63000点,日内涨超6%

日经225指数首次突破63000点,日内涨超6%

每日经济新闻
2026-05-07 13:07:04
张雪太大方!夺冠后就发全年奖金 德比斯:不用担心银行催款电话

张雪太大方!夺冠后就发全年奖金 德比斯:不用担心银行催款电话

念洲
2026-05-07 11:05:25
确认了!今天傍晚 抵达无锡!

确认了!今天傍晚 抵达无锡!

无锡eTV全媒体
2026-05-07 13:38:50
合同到期!CBA昔日王牌后卫与主教练闹翻,或离开老东家

合同到期!CBA昔日王牌后卫与主教练闹翻,或离开老东家

国篮会自强
2026-05-06 19:41:11
96年,张万年得知有一名战士当了和尚,问他道:谁把你逼上山的

96年,张万年得知有一名战士当了和尚,问他道:谁把你逼上山的

锅锅爱历史
2026-04-04 14:29:00
2026-05-07 18:44:49
Ping值焦虑
Ping值焦虑
有态度网友ytd
2178文章数 35关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

媒体:不是中国离不开世界杯 是世界杯更需要中国

头条要闻

媒体:不是中国离不开世界杯 是世界杯更需要中国

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

孙杨强迫拉张豆豆手那一幕,我看笑了,也看怒了

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

本地
艺术
时尚
手机
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

这位老教授笔下的青年,活力满满

穿黑裤子别只会搭白T恤!看看这些显瘦的搭配,高级感拉满

手机要闻

消息称某子系迭代旗舰工程机配备6.6英寸中屏+8500mAh电池

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版