网易首页 > 网易号 > 正文 申请入驻

开源屠刀!400美元炼成「代码副脑」,硅谷天价模型成废铁

0
分享至


新智元报道

编辑:peter东

【新智元导读】Claude Code这样私有的编程智能体虽然能力强大,但有着封闭、昂贵、难以定制的局限。艾伦研究院推出的Open Coding Agents,让你只需要400美元就能训练一个32B的专属编程智能体。

一个行业的价格体系,往往不是被更强的技术」击穿,而是被「更便宜的复制」改写。

今天,AI2直接把编程智能体的入场费从「实验室级预算」砍到「团队报销级」:公开开源Open Coding Agents,用最低数百美元的算力成本,就能训练出能跑SWE-Bench Verified、还能贴合私有代码库的专属编程智能体。

封闭、昂贵、难定制的「巨头护城河」,第一次被开源用成本刀锋切开一道口子。

开源编程智能体适配私人风格

过去一年,AI编码智能体彻底改写了软件开发的游戏规则——

从代码生成、调试到重构甚至提交拉取请求,AI正以前所未有的深度介入开发流程。

然而繁荣背后,一个残酷的现实是:最强大的编码智能体几乎都被科技巨头封闭,训练成本动辄百万美元,更无法适配企业的私有代码库。


现在有了Allen AI发布的Open Coding Agents,为任何代码库构建自己的编程智能体变得异常容易,你可以使用个人代码库或所在组织的内部代码库,轻松训练一个能够用于包括代码生成、代码审查、调试、维护和代码解释等任务的智能体。

用上这套方法,达到先前最佳开源模型只需约400 美元的计算成本,而要微调出一个与32B最佳行业模型相当性能的编程大模型,成本最高也不过12,000美元,仅需40个GPU日训练(2块NVIDIA Hopper或Blackwell GPU)。

这个价格比许多传统方法便宜25倍以上,对实验室和小型团队来说都触手可及。


图1:SERA-32B在编程任务上的表现

在标准编码基准测试SWE-Bench中,SERA-32B交出了一份令人惊艳的成绩单:在64K上下文长度下,解决率达到54.2%,超越了所有同规模开源模型。

推理速度更是惊人,在4×H100上达到每秒3,700个token,在Blackwell 4×B200上更是达到每秒8,600个token

但更颠覆认知的是在特定代码库上的表现。当针对Django和SymPy等大型开源项目进行专业化训练后,仅用8,000个样本、1,300美元成本微调的SERA-32B,竟然在多项任务上超越了其老师,拥有1100亿参数的GLM-4.5-Air。

这说明模型规模并非决定性能的唯一因素,高质量、针对性的训练数据可以让小模型在特定领域表现出色。这为资源有限的研究团队和企业提供了新的可能性。他们不再需要追逐千亿参数规模的模型,而是可以通过有针对性的训练,让较小的模型在特定任务上达到顶尖水平。

软验证生成与工作流高保真模拟

SERA的核心突破源于其在合成数据生成方法上的根本性创新。传统方法需要精确验证生成的代码补丁是否正确,这一过程计算成本高昂,成为大规模应用的瓶颈。

而SERA引入的软验证生成(SVG Soft-verified generation)技术,彻底改变了这一范式。

之前的编程智能体训练之所以成本高,是因为训练数据需要包含错误和修正代码的代码示例对,这就意味着需要花费很多人力成本来生成并验证训练数据集。

AllenAI的研究者发现,训练数据不需要完美无缺才能有效

就像不同的代码可以实现相同功能一样,部分正确的代码补丁同样可以训练出强大的编码智能体。这一发现解放了数据生成过程,使其从昂贵的全验证循环中解脱出来。

AllenAI团队通过系统实验证明,软验证数据与完全验证数据在训练效果上具有相似的缩放规律,但生成成本却大幅降低。

这意味着研究者可以将资源集中在数据量和多样性上,而非追求每个样本的完美正确性。

为了让训练数据多样化,AllenAI团队从51种常见错误模式中系统化生成多样化的训练数据,避免数据单调性。对于代码库中的每个函数,分别生成多个不同的 bug 风格的提示词,这样一个包含数千个函数的代码库可以以低成本产生数万个多样化的用于编程智能体的训练数据。


图2:SERA训练过程

在训练时,SERA通过「教师模型」结合「错误指令集」,在目标代码库上自动化生成两轮数据:第一轮模拟开发者引入错误(Rollout 1),第二轮模拟审查与修复(Rollout 2)。最关键的是,系统并不验证第二轮生成的补丁(P2)是否绝对正确,而是通过r = |P2 ∩ P1| / |P1|来衡量新旧补丁的重叠度。只要重叠度超过50%(r ≥ 0.5),修复补丁即被视为有效。

上述SERA的训练数据的生成方式,模拟的是开发者的工作过程,而不仅仅是代码结果。这意味着AI学习的是如何发现问题、分析问题、解决问题的完整思维链,而不仅仅是记忆正确的代码片段。

SERA项目负责人表示,「软验证捕捉的是开发者的思维过程,而非简单的代码正确性」。这一设计实现了根本性的成本革命。它放弃了追求「完美正确」的样本,转而捕捉「部分正确但逻辑合理」的开发者工作流。

这使得从任何私有代码库大规模、低成本生成高质量训练数据成为可能,最终产出的轨迹与补丁数据可用于高效的监督微调,让中小团队也能训练出理解自身代码的专属编程智能体。

高性能、易部署、兼容Claude Code

此次开源的代码,包括了从8B到32B的所有规模模型,以及在SERA上进行据生成、训练参数、优化策略以微调、测试和构建私有AI编程智能体的全过程,仅需两行代码即可启动推理服务器。

Allen AI还开发了一个设置脚本和推理优化,使SERA直接兼容Claude Code。


优化后的SERA在消费级硬件就可以运行,这对于想使用AI编程智能体的公司,意味着不必担心自身数据外泄,就可以用一个和更大参数模型性能相近,还适配自身编程规范的本地智能体。这对于金融,医疗等关注数据安全的行业尤为适用。

一个充分理解特定代码库的小模型,完全可以战胜通用的巨无霸模型。这对于企业来说,意味着定制化的编码智能体不再是科技巨头的特权,只需要用1/3的参数规模、更少的内存、更快的推理速度,就能获得更好的编程效果。


SERA展示出的小模型+高质量数据的技术路径,减少了对极端算力资源的依赖,使得在更接近数据源的地方进行训练和推理成为可能。这将改变AI智能体的发展方向。

SERA的出现,将会有利于垂直类的编程智能体。企业现在可以构建理解自身代码基的智能体,而非试图让通用模型适应自己的特定需求。医疗、金融、制造等特定行业的编码规范将被快速学习,催生领域专属的AI编码助手。

就像Linux开启了操作系统的开源时代,SERA可能开启编码智能体的开源时代。当每个开发者都能拥有理解自己代码库的AI伙伴时,编码智能体的平民化时代将会到来。最强大的AI工具不应被锁在科技巨头的服务器里,而应该掌握在每个创造者手中。

参考资料:

https://allenai.org/blog/open-coding-agents


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库克、马斯克、奥特伯格等美企高管将随特朗普访华,曾表示“荣幸”的黄仁勋疑缺席

库克、马斯克、奥特伯格等美企高管将随特朗普访华,曾表示“荣幸”的黄仁勋疑缺席

界面新闻
2026-05-12 12:39:04
途经芳村!设计时速160公里!即将全面施工→

途经芳村!设计时速160公里!即将全面施工→

广州交通电台
2026-05-12 09:56:13
核心配音演员去世后,《暗黑地牢》开发商拒绝使用AI生成他的声音

核心配音演员去世后,《暗黑地牢》开发商拒绝使用AI生成他的声音

游研社
2026-05-12 07:35:14
刘涛雨中跪拜妈祖,一道光打下来,福建人彻底信了

刘涛雨中跪拜妈祖,一道光打下来,福建人彻底信了

TVB的四小花
2026-05-10 10:38:33
中国人在哈萨克斯坦生活实录:饭太多、女人太飒、聊天太上头了!

中国人在哈萨克斯坦生活实录:饭太多、女人太飒、聊天太上头了!

老特有话说
2026-04-19 15:29:16
黄晓明浦东机场被偶遇,行李箱上贴满自己大头照,这操作太绝了!

黄晓明浦东机场被偶遇,行李箱上贴满自己大头照,这操作太绝了!

今古深日报
2026-05-12 10:06:04
携程再次卷入“大数据杀熟”争议:钻石会员订房比普通会员贵一倍

携程再次卷入“大数据杀熟”争议:钻石会员订房比普通会员贵一倍

识礁Farsight
2026-05-12 21:44:56
广东广州一女子出摊时,女儿帮忙插上车钥匙,不小心拧到油门,150斤卤菜全摔地上,损失近1000块,女子:女儿也是出于好心,没有责怪孩子

广东广州一女子出摊时,女儿帮忙插上车钥匙,不小心拧到油门,150斤卤菜全摔地上,损失近1000块,女子:女儿也是出于好心,没有责怪孩子

台州交通广播
2026-05-11 19:34:11
建国后,21兵团司令员自降为军长,拟定少将军衔,毛主席:授上将

建国后,21兵团司令员自降为军长,拟定少将军衔,毛主席:授上将

墨策史
2026-05-13 00:05:16
林诗栋的姐姐是谁?世界冠军的秘密揭晓!

林诗栋的姐姐是谁?世界冠军的秘密揭晓!

观察鉴娱
2026-05-12 09:24:07
汽车4月国内销量下跌21%油车跌37% 出口暴涨80%

汽车4月国内销量下跌21%油车跌37% 出口暴涨80%

网上车市
2026-05-11 21:44:30
狮王会如何对待成年后的女儿?狮群中的狮子们不会近亲繁殖吗?

狮王会如何对待成年后的女儿?狮群中的狮子们不会近亲繁殖吗?

向航说
2026-05-12 01:35:03
为什么:高铁,要涨价20%?

为什么:高铁,要涨价20%?

辰星杂谈
2026-05-12 13:08:13
女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

梅子的小情绪
2025-12-19 14:04:18
斯威士兰国王钟爱选妃:第16位妻子是南非前总统之女,相差35岁

斯威士兰国王钟爱选妃:第16位妻子是南非前总统之女,相差35岁

照见古今
2026-05-11 15:31:12
男子要求鱼香肉丝不放盐,店员一句“做不了”,掀翻餐饮业的底裤

男子要求鱼香肉丝不放盐,店员一句“做不了”,掀翻餐饮业的底裤

天天热点见闻
2026-05-11 15:04:16
北京男篮88-73战胜广东晋级四强,半决赛对阵上海 杜锋直言没遗憾

北京男篮88-73战胜广东晋级四强,半决赛对阵上海 杜锋直言没遗憾

中国篮坛快讯
2026-05-13 00:01:01
奥迪Q9内饰官图曝光 实车预计7月29日发布

奥迪Q9内饰官图曝光 实车预计7月29日发布

车质网
2026-05-12 09:28:09
召开记者见面会,皇马高层已经陆续抵达办公室

召开记者见面会,皇马高层已经陆续抵达办公室

懂球帝
2026-05-13 00:17:05
有100万存款的家庭,日子过得咋样?网友分享让人大跌眼镜!

有100万存款的家庭,日子过得咋样?网友分享让人大跌眼镜!

夜深爱杂谈
2026-03-02 22:37:17
2026-05-13 02:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15194文章数 66863关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

利润再腰斩 京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
家居
房产
旅游
军事航空

艺术要闻

震惊!他竟用镜头看透了所有女人的秘密!

家居要闻

极简主义下的居住场域与空间

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

旅游要闻

故宫挤满游客,人人撑伞前行:宁愿热到出汗,也要奔赴紫禁城!

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版