网易首页 > 网易号 > 正文 申请入驻

QueST框架:让AI自己生成困难编程题,训练更强大的代码推理模型

0
分享至


人工智能在编程和数学推理方面已经取得了令人瞩目的成就,一些模型甚至能够解决竞赛级别的编程难题。但随着模型能力的不断提升,一个新的瓶颈逐渐显现:缺乏足够多、足够难的训练数据。这项由苏黎世大学的胡瀚旭(Hanxu Hu)、微软研究院的张星星(Xingxing Zhang)等研究人员共同开展的研究,发表于2025年1月,提出了一个名为QueST的创新框架来解决这一关键问题。

传统上,训练这些AI模型需要大量由人类专家精心设计的编程题目。然而,随着模型变得越来越聪明,现有的题库很快就不够用了。目前最大的编程竞赛数据集也只包含几万道题目,而且要让博士级别的专家来设计真正能难倒最新AI模型的题目,不仅成本极高,而且在规模和难度上都难以满足需求。

面对这个挑战,研究团队提出了一个颇具创意的解决方案:让AI模型自己学会生成困难的编程题目。QueST框架的核心思想就是训练一个专门的"出题器",这个出题器不仅能够创造新的编程问题,还能确保这些问题具有足够的挑战性,能够有效提升其他模型的推理能力。

整个QueST框架就像是建立了一个智能的题目工厂。这个工厂有两个关键的生产环节:第一个是"难度感知的概念图采样",第二个是"难度感知的拒绝式微调"。前者负责选择合适的概念组合来构建题目的基础框架,后者则负责训练出题器生成真正有挑战性的问题。

在难度感知的概念图采样环节中,研究团队首先分析现有的编程题目,提取出其中包含的各种概念和知识点。这就像是在分析一本食谱集,找出每道菜用到的食材和烹饪技巧。然后,他们构建了一个概念图,其中每个节点代表一个概念,节点之间的连接表示这些概念在实际题目中的共现关系。与传统方法不同的是,QueST在构建这个概念图时,不仅考虑概念的共现频率,还会考虑包含这些概念的题目的平均难度。

具体来说,他们重新定义了概念图中边的权重公式。传统的权重只基于两个概念在同一题目中出现的频率,而QueST的权重公式还加入了难度因子。这意味着,如果两个概念经常在困难题目中一起出现,那么它们之间的连接权重会更高。当系统进行随机游走来选择概念组合时,就更有可能选择那些通常出现在困难题目中的概念搭配。

在难度感知的拒绝式微调环节中,研究团队设计了一个巧妙的难度评估机制。他们发现,可以通过观察模型对同一道题目的多次解答的一致性来判断题目的难度。这个思路很直观:如果一道题目很简单,那么模型每次解答时都会给出相同或相似的答案;但如果题目很困难,模型就会在不同的尝试中给出不一致的答案。

具体的实施过程是这样的:对于每道生成的题目,研究团队会让GPT-4o生成一系列测试用例,然后让模型多次尝试解决这道题目。通过比较这些解答在测试用例上的输出结果,他们计算出一个"多数投票率"。如果大多数解答都给出相同的结果,说明题目相对简单;如果解答结果分歧很大,说明题目具有挑战性。基于这个原理,他们定义了难度分数:难度分数等于1减去平均多数投票率。

有了这个难度评估机制,研究团队就可以实施拒绝式微调了。对于每个给定的概念组合提示,他们让模型生成多道候选题目,然后只保留其中难度分数最高的那一道。这样的训练数据被用来进一步微调出题器模型,使其逐渐学会生成更加困难的题目。

为了验证QueST框架的有效性,研究团队进行了大规模的实验。他们使用TACO数据集作为种子数据,这个数据集包含约2.5万个带有人工标注难度标签的编程题目。通过QueST框架,他们成功生成了10万道新的编程题目,每道题目都配有来自强大推理模型的详细解答链。

实验结果令人印象深刻。研究团队使用他们的训练好的出题器(基于Qwen2.5-14B-Instruct模型微调)生成题目,然后用这些题目训练一个8B参数的学生模型。结果显示,即使只使用10万道QueST生成的题目进行训练,学生模型在LiveCodeBench基准测试上的表现就超过了原始的Qwen3-8B模型。更令人惊讶的是,当他们将10万道QueST生成的题目与11.2万道来自人类编写题目的训练样本结合时,这个8B参数的模型竟然达到了与6710亿参数的DeepSeek-R1-671B模型相当的性能水平。

研究团队还进行了详细的消融实验来验证框架中各个组件的有效性。他们发现,难度感知的图采样和拒绝式微调都对最终性能有显著贡献。特别是在处理困难题目时,使用QueST框架训练的模型表现出了明显的优势。

除了监督学习,研究团队还验证了QueST生成的数据在强化学习中的效果。他们使用GRPO算法,在包含QueST生成题目的数据集上训练模型,同样取得了良好的效果。这表明QueST生成的题目不仅适用于传统的监督学习,也能在更高级的训练范式中发挥作用。

为了确保研究的科学性,团队还进行了数据污染检测。他们计算了生成数据集与评估基准之间的50-gram Jaccard相似度,结果显示相似度为0,证明了生成的数据没有泄露评估信息。

从技术角度来看,QueST框架的创新性主要体现在几个方面。首先,它是第一个专门训练模型来生成困难编程题目的方法,而不是简单地使用固定的模型来生成。其次,它巧妙地结合了概念图采样和拒绝式微调,形成了一个端到端的训练流程。最后,它提出的基于模型输出一致性的难度评估方法既简单又有效。

这项研究的意义不仅仅局限于编程领域。随着AI模型在各个推理任务上的能力不断提升,如何生成足够多、足够有挑战性的训练数据将成为一个普遍问题。QueST框架提供的思路可能为其他领域的类似问题提供启发。

当然,这项研究也存在一些局限性。目前的难度计算方法在计算上比较昂贵,需要为每道题目生成多个解答和测试用例,这在实时强化学习环境中可能不太实用。研究团队在论文中也提到了这一点,并建议未来可以探索训练专门的难度预测模型或其他更高效的方法。

从更广阔的视角来看,QueST框架反映了AI发展中一个有趣的趋势:AI不仅在解决问题,也在学习如何提出问题。这种"自我出题"的能力可能会成为未来AI系统的一个重要特征,帮助它们在缺乏人类标注数据的情况下持续改进自己的能力。

总的来说,这项由苏黎世大学和微软研究院合作完成的研究为大语言模型的训练提供了一个新的思路。通过让AI学会生成困难的编程题目,QueST框架不仅解决了训练数据稀缺的问题,还为未来更强大的代码推理模型的开发铺平了道路。对于关注AI发展的人来说,这项研究展示了如何通过创新的方法论突破现有的技术瓶颈,值得深入了解和思考。

Q&A

Q1:QueST框架是什么?

A:QueST是苏黎世大学和微软研究院开发的一个AI框架,专门用来训练模型自动生成困难的编程题目。它通过难度感知的概念图采样和拒绝式微调技术,让AI学会创造具有挑战性的编程问题,从而为训练更强大的代码推理模型提供高质量的训练数据。

Q2:QueST如何判断编程题目的难度?

A:QueST使用一个基于模型输出一致性的评估方法。具体来说,它让模型多次解答同一道题目,然后比较这些解答结果的一致性。如果模型每次都给出相似答案,说明题目较简单;如果解答结果差异很大,说明题目有挑战性。最终的难度分数是1减去平均多数投票率。

Q3:使用QueST训练的模型效果如何?

A:效果非常显著。研究显示,仅用10万道QueST生成的题目训练的8B参数模型就超越了原始Qwen3-8B的性能。当结合11.2万道人类编写的训练样本时,这个8B模型甚至达到了6710亿参数DeepSeek-R1-671B模型的性能水平,展现了该框架的强大效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安理会将举行紧急会议讨论以色列宣布承认索马里兰

安理会将举行紧急会议讨论以色列宣布承认索马里兰

财联社
2025-12-28 10:53:06
离婚4年,福原爱逆袭成日本富豪,江宏杰卖婚房谋生

离婚4年,福原爱逆袭成日本富豪,江宏杰卖婚房谋生

探索新高度
2025-12-29 17:59:20
老人的积蓄,交给谁来保管安全又合适?听听71岁大爷的聪明做法

老人的积蓄,交给谁来保管安全又合适?听听71岁大爷的聪明做法

人间百态大全
2025-12-27 06:50:03
大连这回动真格的了,明年底前主城区156万平危旧房要“清零”。

大连这回动真格的了,明年底前主城区156万平危旧房要“清零”。

岁月有情1314
2025-12-29 15:52:38
詹姆斯谈即将41岁:我在与时光老人作战,并且我已揍他一顿了

詹姆斯谈即将41岁:我在与时光老人作战,并且我已揍他一顿了

懂球帝
2025-12-29 14:00:12
有钱人低调起来有多惊人?网友:简直颠覆认知。

有钱人低调起来有多惊人?网友:简直颠覆认知。

另子维爱读史
2025-12-28 17:43:40
四川16岁男孩把继母生的弟妹从2楼扔下,继母崩溃,知情人曝内情

四川16岁男孩把继母生的弟妹从2楼扔下,继母崩溃,知情人曝内情

丁丁鲤史纪
2025-12-29 16:36:07
李若彤的“私照”被曝光!为什么59岁了,她的身材还是不输少女?

李若彤的“私照”被曝光!为什么59岁了,她的身材还是不输少女?

马拉松跑步健身
2025-12-27 17:27:00
破案!家政被黑肘干翻,裁判死活不看回放原因找到,贾明儒教得好

破案!家政被黑肘干翻,裁判死活不看回放原因找到,贾明儒教得好

后仰大风车
2025-12-29 09:10:10
詹姆斯:愿意为了赢球去做任何事情 我狠揍了时光老人一顿

詹姆斯:愿意为了赢球去做任何事情 我狠揍了时光老人一顿

北青网-北京青年报
2025-12-29 16:15:10
这一次,再多名和利,也救不了“狂妄自大、两面三刀”的张本智和

这一次,再多名和利,也救不了“狂妄自大、两面三刀”的张本智和

梦录的西方史话
2025-12-29 16:10:09
斩获120万奖金!无解劈杀击溃世界3,石宇奇2-0安东森问鼎天王杯

斩获120万奖金!无解劈杀击溃世界3,石宇奇2-0安东森问鼎天王杯

钉钉陌上花开
2025-12-28 20:24:29
影后辩台开杠,《一路繁花2》收官玩的就是心跳

影后辩台开杠,《一路繁花2》收官玩的就是心跳

八卦三缺一
2025-12-29 13:28:45
1945年,女八路忍痛将刚出生的女儿放在路旁,当上总理后才敢相认

1945年,女八路忍痛将刚出生的女儿放在路旁,当上总理后才敢相认

古书记史
2025-12-24 20:24:21
导游是否坑人,只看这两点!

导游是否坑人,只看这两点!

趣闻分享1
2025-12-17 15:07:55
大清这艘“破船”为啥能撑到1895年?就靠这两场灭国之战吓住欧洲

大清这艘“破船”为啥能撑到1895年?就靠这两场灭国之战吓住欧洲

历史按察使司
2025-12-23 08:43:28
12月29日人民币对美元中间价调升27个基点

12月29日人民币对美元中间价调升27个基点

证券时报
2025-12-29 09:31:03
深圳楼市起飞了,深圳待售二手房从84820套增加到了86605套

深圳楼市起飞了,深圳待售二手房从84820套增加到了86605套

有事问彭叔
2025-12-29 15:45:18
乘客强行登车致设备损坏列车临时停车,济南地铁发布安全倡议

乘客强行登车致设备损坏列车临时停车,济南地铁发布安全倡议

新京报
2025-12-29 14:11:06
36岁男星晒南极旅游!吃泡面续命,嫌企鹅臭,网友:对南极祛魅了

36岁男星晒南极旅游!吃泡面续命,嫌企鹅臭,网友:对南极祛魅了

小椰的奶奶
2025-12-29 03:26:50
2025-12-29 19:32:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
851文章数 151关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

媒体:郑丽文盼明年上半年"登陆" 赖清德急了

头条要闻

媒体:郑丽文盼明年上半年"登陆" 赖清德急了

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

谭松韵扛剧能力被质疑 赵丽颖成女主?

财经要闻

翁杰明:宏观数据与居民微观感受存在差距

汽车要闻

“路”要越走越深,猛士的智能越野时代来了

态度原创

艺术
家居
时尚
数码
本地

艺术要闻

克里姆特风格的女性人物画,太美了!

家居要闻

东方雅韵 温馨恬适

“勃肯鞋”今年冬天爆火!这几双怎么搭都好看

数码要闻

更高效更智能,华为MatePad 11.5 S解锁高效学习体验

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

无障碍浏览 进入关怀版