网易首页 > 网易号 > 正文 申请入驻

国内量化圈的第二个AI选手来了,开源模型代码跑分超 GPT-5.1

0
分享至

2026 年开年,国内量化私募九坤投资创始团队旗下的至知研究院(IQuest Research)发布了首代开源代码大模型系列 IQuest-Coder-V1。

这家研究机构声称,其 40B 参数的旗舰模型在 SWE-bench Verified 基准测试中拿下了 81.4%的成绩,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面开源,涵盖 7B、14B、40B 三种参数规模,以及标准版和 Loop 变体。


图丨IQuest-Coder-V1的架构(来源:GitHub)

至知研究院由九坤投资创始团队发起设立,定位为独立于量化投研体系的 AI 研究平台。

九坤本身是国内最早将深度学习大规模应用于量化投资的机构之一,2020 年投资过亿建成 AI 超算集群“北溟”,旗下三大实验室长期从事数据、算法和交易执行研究。继幻方量化孵化出 DeepSeek 之后,这是又一家从量化圈走出来的 AI 研究力量。

IQuest-Coder-V1 技术报告中最值得关注的是 Code-Flow 训练范式对 commit 演化数据的利用。传统代码模型基于静态代码文件训练,相当于让模型看一堆代码快照。IQuest-Coder 的做法不同:它试图让模型学习代码仓库的演化轨迹——不只是代码长什么样,还要学习代码是怎么一步步改出来的。

具体来说,他们为每个代码仓库构建了形如(R_old, P, R_new)的三元组训练数据。R_old 代表项目在某个稳定开发阶段的代码状态,P 是捕捉两个状态差异的 Patch 信息(即 commit 变更),R_new 则是迭代后的新状态。

选取起点时有个讲究:他们避开了项目早期不稳定的探索性代码和后期碎片化的维护性修改,专门聚焦于项目生命周期 40%到 80%区间的“成熟期”。理由是这个阶段的代码库相对稳定,变更模式更能反映真实的软件开发逻辑。

这个思路有一定道理。程序员在修 bug 或加新功能时,脑子里转的不是“这段代码是什么”,而是“这段代码要从什么状态变成什么状态”。

Commit 记录天然包含了这种“变更意图”——为什么改、改了哪里、改完之后整体结构如何调整。如果模型能从大量 commit 历史中学到这种模式,理论上应该比只看静态代码更擅长理解“怎么改代码”。

这也解释了为什么 IQuest-Coder 在 SWE-bench 这类需要生成 patch 修复 issue 的任务上表现突出——任务形式本身就和训练数据的结构高度吻合。技术报告中提到的一个发现印证了这点:仓库演化数据(repository transition data)在任务规划能力上提供了比静态快照更好的训练信号。


图丨研究团队展示的太阳系模拟示例(来源:IQuest Lab)

预训练阶段,IQuest-Coder 先用通用数据和代码数据打底,随后用高质量代码语料进行退火(Annealing)。这部分比较常规。中间训练阶段则分两期进行:他们在 32K 上下文长度下注入了推理数据、Agent 轨迹和代码数据的混合,随后将上下文扩展到 128K,加入仓库级的长序列样本。

Agent 轨迹数据包含完整的“行动-观察-修正”循环——命令执行、日志输出、错误信息、测试结果等环境反馈。技术报告的说法是,推理数据提供符号层面的逻辑脚手架,Agent 轨迹则提供“闭环智能”,让模型学会根据环境反馈调整行为。他们声称在高质量代码退火之后、后训练之前注入这类数据,能在分布偏移下稳定模型性能。

后训练阶段分成两条路径:Thinking 路径先用包含显式推理轨迹的数据做监督微调,再用强化学习优化推理能力;Instruct 路径则用通用和代码指令数据做监督微调,再用 RL 增强指令遵循能力。

技术报告声称,Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。换言之,RL 可能是解锁代码模型“自主调试”能力的关键。


图丨训练流程(来源:GitHub)

架构方面,Loop 变体的设计比较有意思。LoopCoder 采用循环 Transformer 架构,让参数共享的 Transformer 块执行两次固定迭代。第一次迭代正常处理输入嵌入,第二次迭代同时计算两种注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 对)和局部注意力(维持因果性的常规自注意力)。

两种注意力的输出通过一个基于 query 表示的学习门控机制加权混合。这种设计的目的是在有限参数规模下获得更高的有效计算深度,即用参数共享换取更多计算步骤,在部署效率和模型能力之间找平衡。

后训练的 Thinking 路径也值得一提。技术报告声称,通过强化学习训练的 Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。如果属实,这意味着 RL 可能是解锁代码模型“自主调试”能力的关键,模型不只是生成代码,还能在出错后自我修正。

根据技术报告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解决率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函数调用排行榜)V3 上达到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上达到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成绩是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分别达到 98.5%和 99.4%。


图丨基准测试结果(来源:IQuest-Coder-V1)

当然,SWE-bench Verified 只覆盖 Python 且仅含 500 个样本,社区对“针对榜单优化”的担忧一直存在。其在实际使用中的表现如何,有待社区的进一步测试反馈。

从技术贡献看,IQuest-Coder-V1 最有价值的部分可能是对 commit 演化数据的系统性利用。这个方向此前在学术界有过探索,但在开源模型的大规模训练中应用得并不多。技术报告承诺会开源完整训练流程和中间检查点,这对研究代码模型如何学习软件工程能力将是有价值的参考。至于跑分能否转化为实际生产力,要等更多开发者上手实测才能下结论。

参考资料:

1. https://iquestlab.github.io/#/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万科创始人妻子解除边控

万科创始人妻子解除边控

地产微资讯
2026-03-26 20:23:02
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

茶韵浮生
2026-03-26 20:26:51
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

涛哥锐评
2026-03-26 17:57:04
全国高速明天大调整!车主集体欢呼:早该这么干了

全国高速明天大调整!车主集体欢呼:早该这么干了

沙雕小琳琳
2026-03-26 02:05:39
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

新民周刊
2026-03-26 19:12:17
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

中国能源网
2026-03-26 14:13:04
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
“大概有几十万”,重庆一小区有人高空撒钱,物业称捡回几大桶,撒钱者正配合调查

“大概有几十万”,重庆一小区有人高空撒钱,物业称捡回几大桶,撒钱者正配合调查

新京报
2026-03-26 20:41:35
丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

冷紫葉
2026-03-24 19:12:36
网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

极目新闻
2026-03-26 17:01:19
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
2026-03-26 22:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
家居
公开课
军事航空

亲子要闻

你好,我是馒头,快开门!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版