网易首页 > 网易号 > 正文 申请入驻

超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

0
分享至

AI编程持续突围。

近日,来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实独立编程评测)排行榜,取得了全球第二名的成绩,同时创造了非GPT-4o基模的最高纪录(SOTA)。开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。

OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。

1

大模型编程的真实挑战

2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给众多AI爱好者和从业者新的期待。

Devin不仅能够轻松解决编码任务,更可以自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等等。

为什么Devin敢于挑战GPT4等基础模型的编程能力呢?

核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景,普林斯顿大学提出了SWEBench(https://arxiv.org/abs/2310.06770),这是一种量化评估端到端代码生成能力的工具。GPT-4在SWEBench上的评分仅有1.74%,即使加上RAG技术,评分也不到3%,这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin则基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。3月,Devin以独立解决13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到“看到曙光”。

硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域,这项记录被连续改写。截止2024年4月底,最好的记录是由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。较为遗憾的是,相比于基础模型榜单上中国公司的“百花齐放”,这项挑战中国公司鲜少参与,直到这一次OpenCSG刷新了这一记录。

2

OpenCSG的突破:

模型+Agent齐发力

近日SWEBench最新评测结果更新,OpenCSG跃居榜单第二名,该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率,这一成绩不仅超过了Devin和Amazon的成绩,同时也创造了非GPT4-o基模的历史最高纪录(SOTA)。

OpenCSG成立仅一年,CEO陈冉是开源领域的领袖,曾成功打造过多家开源领域的商业公司;CTO王伟来自清华05级姚班,在人工智能领域有多年研发经验;公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。

他们是如何刷新这一记录的呢?

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术,而OpenCSG则选择了专注的方向:致力于编程Agent的创新开发和大型模型算法的深度优化。

Agent层面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域定制优化Agent而设计,将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。

算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

3

StarShip的星辰大海

如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。对于StarShip的产品定位,OpenCSG CEO陈冉表示:“StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。”

CTO王伟表示这条路径充满挑战但非常有趣,“从第一性原理来看,大模型对于生产力的提升已经不是'是'或者'否'的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。”

除StarShip之外,OpenCSG团队还相当高产,已经发布了CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这些产品定位精准,在业内颇受好评。

这些产品的快速推出与迭代,既满足了市场需求,同时也为了一个共同的目标:让大模型赋能每一个企业每一个人。“让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么CSGHub是电力网络,StarShip则是各种各样的家电电器,最终赋能到千家万户。”

4

拥抱开源,超越开源

OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至将平台开源。

“我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同Sam Altman的说法,开源只是一种模式,比模式更重要的是产品价值。”CTO王伟总结道。

“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。”

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今晚油价大涨!92号汽油进"9元时代"

今晚油价大涨!92号汽油进"9元时代"

新浪财经
2026-03-23 11:17:23
研究发现:就算驾驶每秒一光年的飞船,也飞不到宇宙的边缘

研究发现:就算驾驶每秒一光年的飞船,也飞不到宇宙的边缘

观察宇宙
2026-03-20 18:55:12
歼20设计师杨伟简历被撤!曾是最年轻的战机设计师,疑涉军工腐败

歼20设计师杨伟简历被撤!曾是最年轻的战机设计师,疑涉军工腐败

派大星纪录片
2026-03-19 14:01:08
98岁祖母离世!多年不来往的娘家来了十几个人,网友:娘死等舅来

98岁祖母离世!多年不来往的娘家来了十几个人,网友:娘死等舅来

火山詩话
2026-03-21 10:20:37
黄仁勋发Token当工资!硅谷兴起刷量大赛,一人烧掉33个维基百科

黄仁勋发Token当工资!硅谷兴起刷量大赛,一人烧掉33个维基百科

量子位
2026-03-23 11:25:38
美高层曾提议:中国可以用1万多亿美债,从美国手中“赎回”台湾

美高层曾提议:中国可以用1万多亿美债,从美国手中“赎回”台湾

乐享人生风雨
2026-03-22 22:43:16
美国能阻止武统吗?澳媒:中国导弹打完三轮,美军未必能反应过来

美国能阻止武统吗?澳媒:中国导弹打完三轮,美军未必能反应过来

领悟看世界
2026-03-23 01:25:20
彻底翻脸!沙特、土耳其等六国联合围剿以色列,美国也拦不住!

彻底翻脸!沙特、土耳其等六国联合围剿以色列,美国也拦不住!

多多爱探索
2026-03-22 11:25:20
全场被动蓝黑军团再丢分,齐沃的好意,为何成了国米的毒药?

全场被动蓝黑军团再丢分,齐沃的好意,为何成了国米的毒药?

狗哥是一名内拉
2026-03-23 12:21:54
雷军回应60加60争议:口误多讲了一句,“相当于120km/h时速撞墙”,确实说错了,感谢网友们指正

雷军回应60加60争议:口误多讲了一句,“相当于120km/h时速撞墙”,确实说错了,感谢网友们指正

扬子晚报
2026-03-21 13:16:42
全红婵也没想到,拆伙不到1年,陈芋汐已和她走上完全不同的道路

全红婵也没想到,拆伙不到1年,陈芋汐已和她走上完全不同的道路

一娱三分地
2026-03-02 14:45:22
463GB的成人游戏玩家惊掉下巴:游戏纹理是10K的吗?

463GB的成人游戏玩家惊掉下巴:游戏纹理是10K的吗?

游民星空
2026-03-23 11:04:18
他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

淡淡稻花香s
2026-03-22 02:11:10
重庆大学实验室爆炸后续!知情人曝出更多细节,事件现场画面详解

重庆大学实验室爆炸后续!知情人曝出更多细节,事件现场画面详解

叮当当科技
2026-03-23 08:37:46
朱元璋下葬过程有多恐怖?明史给出的资料记载,足以让人胆颤心惊

朱元璋下葬过程有多恐怖?明史给出的资料记载,足以让人胆颤心惊

铭记历史呀
2026-03-21 17:40:18
曝46岁演员刘天佐与方慧离婚!婚姻早有裂痕,多年前曾否认出轨

曝46岁演员刘天佐与方慧离婚!婚姻早有裂痕,多年前曾否认出轨

悦君兮君不知
2026-03-22 12:18:40
刘少奇在长征中经历什么?看懂这件事,才明白他为何能成二号人物

刘少奇在长征中经历什么?看懂这件事,才明白他为何能成二号人物

鹤羽说个事
2026-03-21 21:21:46
丈夫和亲妹妹同居6年,姐姐却睁只眼闭只眼,2016年妹夫也无所谓

丈夫和亲妹妹同居6年,姐姐却睁只眼闭只眼,2016年妹夫也无所谓

汉史趣闻
2026-03-22 20:43:04
孩子都是奔着妈妈来的!网友:我媳妇梦到的是大白蛇钻到她肚子里

孩子都是奔着妈妈来的!网友:我媳妇梦到的是大白蛇钻到她肚子里

带你感受人间冷暖
2026-03-14 00:10:08
普通人接触富人的生活有多震撼?网友:吸引力法则让我刷到你!

普通人接触富人的生活有多震撼?网友:吸引力法则让我刷到你!

解读热点事件
2026-03-22 00:05:09
2026-03-23 13:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7138文章数 20742关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

紫金矿业将取得赤峰黄金控制权 交易对价合计超182亿

头条要闻

紫金矿业将取得赤峰黄金控制权 交易对价合计超182亿

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

岚图汽车香江鸣锣 一场关于"国家队"的突围实验

态度原创

游戏
艺术
本地
房产
公开课

国外学校现场用PS5玩《刺客信条:枭雄》上历史课

艺术要闻

如此美妙的光影,安静而温暖,真令人折服!

本地新闻

这里是宝鸡 嫽滴很!

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版