网易首页 > 网易号 > 正文 申请入驻

开源屠刀!400美元炼成「代码副脑」,硅谷天价模型成废铁

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:peter东

【新智元导读】Claude Code这样私有的编程智能体虽然能力强大,但有着封闭、昂贵、难以定制的局限。艾伦研究院推出的Open Coding Agents,让你只需要400美元就能训练一个32B的专属编程智能体。

一个行业的价格体系,往往不是被更强的技术」击穿,而是被「更便宜的复制」改写。

今天,AI2直接把编程智能体的入场费从「实验室级预算」砍到「团队报销级」:公开开源Open Coding Agents,用最低数百美元的算力成本,就能训练出能跑SWE-Bench Verified、还能贴合私有代码库的专属编程智能体。

封闭、昂贵、难定制的「巨头护城河」,第一次被开源用成本刀锋切开一道口子。

开源编程智能体适配私人风格

过去一年,AI编码智能体彻底改写了软件开发的游戏规则——

从代码生成、调试到重构甚至提交拉取请求,AI正以前所未有的深度介入开发流程。

然而繁荣背后,一个残酷的现实是:最强大的编码智能体几乎都被科技巨头封闭,训练成本动辄百万美元,更无法适配企业的私有代码库。


现在有了Allen AI发布的Open Coding Agents,为任何代码库构建自己的编程智能体变得异常容易,你可以使用个人代码库或所在组织的内部代码库,轻松训练一个能够用于包括代码生成、代码审查、调试、维护和代码解释等任务的智能体。

用上这套方法,达到先前最佳开源模型只需约400 美元的计算成本,而要微调出一个与32B最佳行业模型相当性能的编程大模型,成本最高也不过12,000美元,仅需40个GPU日训练(2块NVIDIA Hopper或Blackwell GPU)。

这个价格比许多传统方法便宜25倍以上,对实验室和小型团队来说都触手可及。


图1:SERA-32B在编程任务上的表现

在标准编码基准测试SWE-Bench中,SERA-32B交出了一份令人惊艳的成绩单:在64K上下文长度下,解决率达到54.2%,超越了所有同规模开源模型。

推理速度更是惊人,在4×H100上达到每秒3,700个token,在Blackwell 4×B200上更是达到每秒8,600个token。

但更颠覆认知的是在特定代码库上的表现。当针对Django和SymPy等大型开源项目进行专业化训练后,仅用8,000个样本、1,300美元成本微调的SERA-32B,竟然在多项任务上超越了其老师,拥有1100亿参数的GLM-4.5-Air。

这说明模型规模并非决定性能的唯一因素,高质量、针对性的训练数据可以让小模型在特定领域表现出色。这为资源有限的研究团队和企业提供了新的可能性。他们不再需要追逐千亿参数规模的模型,而是可以通过有针对性的训练,让较小的模型在特定任务上达到顶尖水平。

软验证生成与工作流高保真模拟

SERA的核心突破源于其在合成数据生成方法上的根本性创新。传统方法需要精确验证生成的代码补丁是否正确,这一过程计算成本高昂,成为大规模应用的瓶颈。

而SERA引入的软验证生成(SVG Soft-verified generation)技术,彻底改变了这一范式。

之前的编程智能体训练之所以成本高,是因为训练数据需要包含错误和修正代码的代码示例对,这就意味着需要花费很多人力成本来生成并验证训练数据集。

AllenAI的研究者发现,训练数据不需要完美无缺才能有效。

就像不同的代码可以实现相同功能一样,部分正确的代码补丁同样可以训练出强大的编码智能体。这一发现解放了数据生成过程,使其从昂贵的全验证循环中解脱出来。

AllenAI团队通过系统实验证明,软验证数据与完全验证数据在训练效果上具有相似的缩放规律,但生成成本却大幅降低。

这意味着研究者可以将资源集中在数据量和多样性上,而非追求每个样本的完美正确性。

为了让训练数据多样化,AllenAI团队从51种常见错误模式中系统化生成多样化的训练数据,避免数据单调性。对于代码库中的每个函数,分别生成多个不同的 bug 风格的提示词,这样一个包含数千个函数的代码库可以以低成本产生数万个多样化的用于编程智能体的训练数据。


图2:SERA训练过程

在训练时,SERA通过「教师模型」结合「错误指令集」,在目标代码库上自动化生成两轮数据:第一轮模拟开发者引入错误(Rollout 1),第二轮模拟审查与修复(Rollout 2)。最关键的是,系统并不验证第二轮生成的补丁(P2)是否绝对正确,而是通过r = |P2 ∩ P1| / |P1|来衡量新旧补丁的重叠度。只要重叠度超过50%(r ≥ 0.5),修复补丁即被视为有效。

上述SERA的训练数据的生成方式,模拟的是开发者的工作过程,而不仅仅是代码结果。这意味着AI学习的是如何发现问题、分析问题、解决问题的完整思维链,而不仅仅是记忆正确的代码片段。

SERA项目负责人表示,「软验证捕捉的是开发者的思维过程,而非简单的代码正确性」。这一设计实现了根本性的成本革命。它放弃了追求「完美正确」的样本,转而捕捉「部分正确但逻辑合理」的开发者工作流。

这使得从任何私有代码库大规模、低成本生成高质量训练数据成为可能,最终产出的轨迹与补丁数据可用于高效的监督微调,让中小团队也能训练出理解自身代码的专属编程智能体。

高性能、易部署、兼容Claude Code

此次开源的代码,包括了从8B到32B的所有规模模型,以及在SERA上进行据生成、训练参数、优化策略以微调、测试和构建私有AI编程智能体的全过程,仅需两行代码即可启动推理服务器。

Allen AI还开发了一个设置脚本和推理优化,使SERA直接兼容Claude Code。


优化后的SERA在消费级硬件就可以运行,这对于想使用AI编程智能体的公司,意味着不必担心自身数据外泄,就可以用一个和更大参数模型性能相近,还适配自身编程规范的本地智能体。这对于金融,医疗等关注数据安全的行业尤为适用。

一个充分理解特定代码库的小模型,完全可以战胜通用的巨无霸模型。这对于企业来说,意味着定制化的编码智能体不再是科技巨头的特权,只需要用1/3的参数规模、更少的内存、更快的推理速度,就能获得更好的编程效果。


SERA展示出的小模型+高质量数据的技术路径,减少了对极端算力资源的依赖,使得在更接近数据源的地方进行训练和推理成为可能。这将改变AI智能体的发展方向。

SERA的出现,将会有利于垂直类的编程智能体。企业现在可以构建理解自身代码基的智能体,而非试图让通用模型适应自己的特定需求。医疗、金融、制造等特定行业的编码规范将被快速学习,催生领域专属的AI编码助手。

就像Linux开启了操作系统的开源时代,SERA可能开启编码智能体的开源时代。当每个开发者都能拥有理解自己代码库的AI伙伴时,编码智能体的平民化时代将会到来。最强大的AI工具不应被锁在科技巨头的服务器里,而应该掌握在每个创造者手中。

参考资料:

https://allenai.org/blog/open-coding-agents

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
300152,相关股东被证监会立案调查!

300152,相关股东被证监会立案调查!

证券时报e公司
2026-04-10 22:55:27
一名比特币矿工以三百年一遇的概率赢得全部比特币区块奖励

一名比特币矿工以三百年一遇的概率赢得全部比特币区块奖励

算力之心
2026-04-10 17:39:58
千亿存储巨头德明利,横空出世了

千亿存储巨头德明利,横空出世了

财经锐眼
2026-04-10 17:41:27
丰田社长警告484家供应商:中国电车面前,不改革就灭亡

丰田社长警告484家供应商:中国电车面前,不改革就灭亡

不掉线电波
2026-04-09 10:29:44
只差1349分!杜兰特把科比拉下第四名 真的只是时间问题?

只差1349分!杜兰特把科比拉下第四名 真的只是时间问题?

体坛八点半的那些事儿
2026-04-01 20:42:36
巴塞罗那梦碎:马德里竞技将向阿尔瓦雷斯提供双倍薪资新合同

巴塞罗那梦碎:马德里竞技将向阿尔瓦雷斯提供双倍薪资新合同

本泽体育
2026-04-10 04:47:07
“被教练强吻了,他是喜欢我还是玩我?”

“被教练强吻了,他是喜欢我还是玩我?”

健身厨屋
2025-11-07 14:31:01
梅根心情大好带孩子去平价玩店,保镖路虎一样不落,公爵派头十足

梅根心情大好带孩子去平价玩店,保镖路虎一样不落,公爵派头十足

聪明的橙子hj
2026-04-09 18:07:21
天津启动八大工程!事关所有人!

天津启动八大工程!事关所有人!

全接触狐狐
2026-04-10 13:53:00
军事专家戴旭:目前世界没有一个国家敢,在军事方面和我们较量

军事专家戴旭:目前世界没有一个国家敢,在军事方面和我们较量

健身狂人
2026-04-10 18:06:15
月薪8000正在毁掉打工人

月薪8000正在毁掉打工人

听见亚东
2026-04-02 07:20:21
2-1险胜19岁巴西新星,兹维列夫晋级ATP1000蒙特卡洛大师赛4强

2-1险胜19岁巴西新星,兹维列夫晋级ATP1000蒙特卡洛大师赛4强

侧身凌空斩
2026-04-10 20:11:39
曝鹈鹕考虑为锡安提供一份年薪3000-3500万的合同

曝鹈鹕考虑为锡安提供一份年薪3000-3500万的合同

北青网-北京青年报
2026-04-10 19:52:04
“穷养女真可怜”,买10分钟商务坐拍了9分钟,鞋子让人无语

“穷养女真可怜”,买10分钟商务坐拍了9分钟,鞋子让人无语

蝴蝶花雨话教育
2026-04-10 12:52:50
“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

妍妍教育日记
2026-03-29 07:40:03
反转了,确认系摆拍!3人被行拘

反转了,确认系摆拍!3人被行拘

新浪财经
2026-04-09 13:57:12
他是影响两岸统一进程的关键人物,若非是他,台湾问题或早已解决

他是影响两岸统一进程的关键人物,若非是他,台湾问题或早已解决

鹤羽说个事
2026-03-01 17:21:10
郑爽疑精神失常!34岁满头白发,与张恒家人街头争吵,孩子吓得大哭

郑爽疑精神失常!34岁满头白发,与张恒家人街头争吵,孩子吓得大哭

八卦王者
2026-03-19 11:48:39
万万没想到,全球局势中“最乱”的竟是中国

万万没想到,全球局势中“最乱”的竟是中国

安安说
2026-01-23 09:12:29
“老师最烦这种现眼包家长”,宝妈穿紧身裙参加运动会,被嘲

“老师最烦这种现眼包家长”,宝妈穿紧身裙参加运动会,被嘲

蝴蝶花雨话教育
2026-04-02 10:30:13
2026-04-11 03:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2830966文章数 6532关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
房产
亲子
健康
数码

艺术要闻

深圳顶级海景地段,为啥留下一排“幽灵别墅群”?真相成谜!

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

亲子要闻

看热闹这玩意随根啊

干细胞抗衰4大误区,90%的人都中招

数码要闻

联想推出2026款来酷斗战者“战7000”笔记本,7699元起

无障碍浏览 进入关怀版