网易首页 > 网易号 > 正文 申请入驻

国内量化圈的第二个AI选手来了,开源模型代码跑分超 GPT-5.1

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

2026 年开年,国内量化私募九坤投资创始团队旗下的至知研究院(IQuest Research)发布了首代开源代码大模型系列 IQuest-Coder-V1。

这家研究机构声称,其 40B 参数的旗舰模型在 SWE-bench Verified 基准测试中拿下了 81.4%的成绩,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面开源,涵盖 7B、14B、40B 三种参数规模,以及标准版和 Loop 变体。


图丨IQuest-Coder-V1的架构(来源:GitHub)

至知研究院由九坤投资创始团队发起设立,定位为独立于量化投研体系的 AI 研究平台。

九坤本身是国内最早将深度学习大规模应用于量化投资的机构之一,2020 年投资过亿建成 AI 超算集群“北溟”,旗下三大实验室长期从事数据、算法和交易执行研究。继幻方量化孵化出 DeepSeek 之后,这是又一家从量化圈走出来的 AI 研究力量。

IQuest-Coder-V1 技术报告中最值得关注的是 Code-Flow 训练范式对 commit 演化数据的利用。传统代码模型基于静态代码文件训练,相当于让模型看一堆代码快照。IQuest-Coder 的做法不同:它试图让模型学习代码仓库的演化轨迹——不只是代码长什么样,还要学习代码是怎么一步步改出来的。

具体来说,他们为每个代码仓库构建了形如(R_old, P, R_new)的三元组训练数据。R_old 代表项目在某个稳定开发阶段的代码状态,P 是捕捉两个状态差异的 Patch 信息(即 commit 变更),R_new 则是迭代后的新状态。

选取起点时有个讲究:他们避开了项目早期不稳定的探索性代码和后期碎片化的维护性修改,专门聚焦于项目生命周期 40%到 80%区间的“成熟期”。理由是这个阶段的代码库相对稳定,变更模式更能反映真实的软件开发逻辑。

这个思路有一定道理。程序员在修 bug 或加新功能时,脑子里转的不是“这段代码是什么”,而是“这段代码要从什么状态变成什么状态”。

Commit 记录天然包含了这种“变更意图”——为什么改、改了哪里、改完之后整体结构如何调整。如果模型能从大量 commit 历史中学到这种模式,理论上应该比只看静态代码更擅长理解“怎么改代码”。

这也解释了为什么 IQuest-Coder 在 SWE-bench 这类需要生成 patch 修复 issue 的任务上表现突出——任务形式本身就和训练数据的结构高度吻合。技术报告中提到的一个发现印证了这点:仓库演化数据(repository transition data)在任务规划能力上提供了比静态快照更好的训练信号。


图丨研究团队展示的太阳系模拟示例(来源:IQuest Lab)

预训练阶段,IQuest-Coder 先用通用数据和代码数据打底,随后用高质量代码语料进行退火(Annealing)。这部分比较常规。中间训练阶段则分两期进行:他们在 32K 上下文长度下注入了推理数据、Agent 轨迹和代码数据的混合,随后将上下文扩展到 128K,加入仓库级的长序列样本。

Agent 轨迹数据包含完整的“行动-观察-修正”循环——命令执行、日志输出、错误信息、测试结果等环境反馈。技术报告的说法是,推理数据提供符号层面的逻辑脚手架,Agent 轨迹则提供“闭环智能”,让模型学会根据环境反馈调整行为。他们声称在高质量代码退火之后、后训练之前注入这类数据,能在分布偏移下稳定模型性能。

后训练阶段分成两条路径:Thinking 路径先用包含显式推理轨迹的数据做监督微调,再用强化学习优化推理能力;Instruct 路径则用通用和代码指令数据做监督微调,再用 RL 增强指令遵循能力。

技术报告声称,Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。换言之,RL 可能是解锁代码模型“自主调试”能力的关键。


图丨训练流程(来源:GitHub)

架构方面,Loop 变体的设计比较有意思。LoopCoder 采用循环 Transformer 架构,让参数共享的 Transformer 块执行两次固定迭代。第一次迭代正常处理输入嵌入,第二次迭代同时计算两种注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 对)和局部注意力(维持因果性的常规自注意力)。

两种注意力的输出通过一个基于 query 表示的学习门控机制加权混合。这种设计的目的是在有限参数规模下获得更高的有效计算深度,即用参数共享换取更多计算步骤,在部署效率和模型能力之间找平衡。

后训练的 Thinking 路径也值得一提。技术报告声称,通过强化学习训练的 Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。如果属实,这意味着 RL 可能是解锁代码模型“自主调试”能力的关键,模型不只是生成代码,还能在出错后自我修正。

根据技术报告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解决率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函数调用排行榜)V3 上达到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上达到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成绩是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分别达到 98.5%和 99.4%。


图丨基准测试结果(来源:IQuest-Coder-V1)

当然,SWE-bench Verified 只覆盖 Python 且仅含 500 个样本,社区对“针对榜单优化”的担忧一直存在。其在实际使用中的表现如何,有待社区的进一步测试反馈。

从技术贡献看,IQuest-Coder-V1 最有价值的部分可能是对 commit 演化数据的系统性利用。这个方向此前在学术界有过探索,但在开源模型的大规模训练中应用得并不多。技术报告承诺会开源完整训练流程和中间检查点,这对研究代码模型如何学习软件工程能力将是有价值的参考。至于跑分能否转化为实际生产力,要等更多开发者上手实测才能下结论。

参考资料:

1. https://iquestlab.github.io/#/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
财政部等四部门:实施民间投资专项担保计划,额度5000亿元

财政部等四部门:实施民间投资专项担保计划,额度5000亿元

界面新闻
2026-01-20 12:02:40
吴建豪妈妈晒与言承旭周渝民阿信合照,70岁看着好年轻,又漂亮

吴建豪妈妈晒与言承旭周渝民阿信合照,70岁看着好年轻,又漂亮

傲傲讲历史
2026-01-20 10:34:30
ESPN评论员:卜拉欣-迪亚斯选择踢勺子点球纯属是为了耍帅

ESPN评论员:卜拉欣-迪亚斯选择踢勺子点球纯属是为了耍帅

懂球帝
2026-01-20 09:30:09
人血馒头吃不停!好友爆梁小龙去世细节,小20岁娇妻赌赢了!

人血馒头吃不停!好友爆梁小龙去世细节,小20岁娇妻赌赢了!

皮蛋儿电影
2026-01-19 22:15:36
西贝官微两度转发“人民日报再评西贝关店事件”,还加了15个感叹号:西贝贾国龙一定对照反思,学习改进

西贝官微两度转发“人民日报再评西贝关店事件”,还加了15个感叹号:西贝贾国龙一定对照反思,学习改进

极目新闻
2026-01-19 20:36:40
快船主帅泰伦卢场边神隐 助教范甘迪代班引热议

快船主帅泰伦卢场边神隐 助教范甘迪代班引热议

林子说事
2026-01-20 11:34:54
陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

粤睇先生
2026-01-18 01:51:44
曼城球员周薪榜:格伊25万英镑,哈兰德52.5万英镑高居榜首

曼城球员周薪榜:格伊25万英镑,哈兰德52.5万英镑高居榜首

懂球帝
2026-01-20 09:19:30
人民日报披露广州农商行原行长易雪飞腐败花样翻新

人民日报披露广州农商行原行长易雪飞腐败花样翻新

科技金融在线
2026-01-19 14:43:25
浓妆艳抹、蕾丝短裙,一颗子弹40万米射程!这是把观众当傻子骗?

浓妆艳抹、蕾丝短裙,一颗子弹40万米射程!这是把观众当傻子骗?

丰谭笔录
2026-01-18 07:50:04
国家发改委:今年将研究制定出台2026—2030年扩大内需战略实施方案

国家发改委:今年将研究制定出台2026—2030年扩大内需战略实施方案

澎湃新闻
2026-01-20 11:23:17
爱德华兹成2026全明星首发最大遗珠 他到底哪点不受球迷待见?

爱德华兹成2026全明星首发最大遗珠 他到底哪点不受球迷待见?

仰卧撑FTUer
2026-01-20 10:40:14
深圳1男2女挤单间合租,相互之间不避讳,网友:都是为了多赚钱

深圳1男2女挤单间合租,相互之间不避讳,网友:都是为了多赚钱

小熊侃史
2026-01-20 07:40:05
仅次于库里,克莱生涯第十个赛季命中200+三分,历史第二人

仅次于库里,克莱生涯第十个赛季命中200+三分,历史第二人

懂球帝
2026-01-20 12:41:27
李亚鹏带货品牌“见山烧”宣布暂停直播30天:近期销售远超预期,将集中力量提升产能、优化生产流程

李亚鹏带货品牌“见山烧”宣布暂停直播30天:近期销售远超预期,将集中力量提升产能、优化生产流程

星岛记事
2026-01-20 09:06:42
李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

牛牛叨史
2025-12-10 22:19:51
缩短11小时 西宁到北京再提速

缩短11小时 西宁到北京再提速

北青网-北京青年报
2026-01-20 08:50:10
建国后坐牢时间最长的人,20岁入狱,77岁释放,出狱两个月后去世

建国后坐牢时间最长的人,20岁入狱,77岁释放,出狱两个月后去世

史之铭
2026-01-19 17:23:08
国破家亡之后,他写下宋末最美的一首词,最后三句惊艳千年

国破家亡之后,他写下宋末最美的一首词,最后三句惊艳千年

长风文史
2026-01-17 12:25:18
曾不顾恩师聂卫平反对,常昊执意娶大8岁师姑为妻,如今怎么样了

曾不顾恩师聂卫平反对,常昊执意娶大8岁师姑为妻,如今怎么样了

流史岁月
2026-01-19 11:25:40
2026-01-20 13:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057571文章数 5291关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

中方代表当场质问日方:你们从来没有真正地认罪悔过

头条要闻

中方代表当场质问日方:你们从来没有真正地认罪悔过

体育要闻

新的时代!东契奇生涯首夺全明星票王 此前10年詹姆斯7次夺魁

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

2026年,7个趋势正在爆发

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

手机
时尚
艺术
本地
军事航空

手机要闻

外设品牌狼蛛AULA全系产品售后升级至2年质保

码住抄作业!春节见人不翻车就靠这8样!

艺术要闻

书法圈人士秒认墙上14字,普通人能懂吗?

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版