网易首页 > 网易号 > 正文 申请入驻

研究人员在离线学习加入多样性激励,减轻创意写作“AI味”

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

自 2025 年起,AI 业内先后推出了 Cursor、Gemini CLI、Qwen CLI、GPT-codex 等基于大模型的自动化代码生成工具,展现了 AI 发展的下一个风口——即利用大模型调用各种分析工具,更好地完成自动化代码生成或辅助人类更快速地进行代码工作。

基于此,上海交通大学本科校友、美国西北大学博士生郁家豪和所在团队研究了如何提高大模型在代码生成这项复杂任务上的性能。


图 | 郁家豪(来源:郁家豪)

经调研,测试时拓展(TTS,Testing Time Scaling)被广泛应用在代码生成上,即先是生成多个候补答案,并通过对比选取最好的方案,来取得相对较好的结果。同时,离线学习(offline learning),即提前生成好数据再让大模型进行学习也是 AI 社区中一种主流的做法。相比在线学习(online learning)需要同时采集数据和训练模型的做法,离线学习所需要的计算资源更低,更方便人们开展算法实验。

但是,研究团队发现离线学习会在一定程度上损失大模型生成回答的多样性,从而会降低测试时拓展时所带来的性能提升。在代码生成任务中,如果生成的多个候补回答非常相近就会造成冗余,以至于并不能很好地提升性能。因此,如何在离线学习的场景下,解决模型生成回答多样性不足的问题,是研究团队的工作重点。

为了解决这一问题,他们提出一种新型训练方法,即在离线学习的损失项中加入了鼓励多样性这一项,通过控制多样性的做法,使得模型在离线学习之后能够生成不一样的候补回答,而不是生成相似的单一回答。这样一来,在后续的测试时拓展时,最终的模型准确率相比常规的离线学习算法有着很高提升。

最终,研究团队在开源数据集 SWE-Bench 上验证了相关结果,证明其所训练的模型取得了 SWE-Bench-Verified 开源榜单第四、SWE-Bench-Lite 开源榜单第一的好成绩,证明了这一算法的合理性。

通过和其他团队的在线学习训练模型方案加以对比,研究团队发现本次方法可以在一定程度上弥补离线学习相比在线学习的天然多样性不足,为在需要测试时拓展的复杂问题上引申出了“除在线学习以外”的新思路,即引入了鼓励多样性的离线学习的新思路。


(来源:https://arxiv.org/pdf/2509.12434)

在应用前景上:

首先,在一些需要多轮交互以及调用工具的复杂任务比如代码生成、数学竞赛、网络攻防夺旗赛(CTF,Capture The Flag)中,可以使用类似技术更高效地进行模型训练。另外,对于一些复杂的数学竞赛题目来说,当使用那些鼓励生成多样性训练的模型的时候,在多次尝试之中可以给出不同的解题思路,从而提高最终的解题率。

其次,在创意写作方面,大模型的创意写作一直被诟病“AI 味很重”,AI 经常被吐槽喜欢使用一些固定句式。而通过鼓励多样性,本次方法也能在某种程度上减轻模型的固化回答,使得创意写作更加优质和更加多样化,从而更好地启发人类的写作思路。

研究团队表示,研究中最难忘的事情便是离线学习数据采集的模型选择。他们最初计划使用 Anthropic 的商业模型 Claude Sonnet 4 进行采集,采集一小部分数据之后发现课题组开销竟然达到五百多美元。评估一下之后他们发现,要完整地进行数据采集可能需要高达上万美元的开销,这超出了课题组的预算。于是,他们开始寻求替代模型,同时替代模型必须具备较好的智能体代码生成能力。

在此期间,恰逢国产模型(国模)出现了一波井喷式爆发。从 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5,这些国模的价格都远比 Anthropic 的模型要便宜。研究团队进行了几次小样本采集实验,结果发现这三个国模的性能都接近 Claude Sonnet 4,完全可以作为实验代替模型。更巧的是,GLM-4.5 在发布之后,其背后公司推出了一个月内试用 1 万亿 token 的套餐,这正好与研究团队的实验节奏相吻合。于是,他们使用 GLM-4.5 提供的套餐完成了离线数据采集,采集数据的开销从预期的上万美元压缩到 50 元人民币。“并且在后学的模型微调中,这些数据的质量也很高,这具体反应在了微调之后的模型性能上。”研究团队告诉 DeepTech。

同时,研究团队用于微调的模型也是 Qwen3-coder-30B,这也是一款国模。当前,大模型研究社区也在普遍采用最新 Qwen 模型作为微调任务。“这些经历让我们感慨:在 2023 年,开源领域几乎只有 Llama,大家进行模型微调研究都只基于 Llama2 进行;在 2025 年,国模已经完成了接力棒的交接,代替 Llama 成为了开源领域的主流,并且和闭源模型的差距也在不断缩小。”研究团队表示。

后续,他们打算针对回答多样性和测试时拓展的性能加以进一步研究。之所以开展这一方向是因为:通过评估其他使用闭源模型的研究团队在 SWE-Bench 上的提交结果,该团队发现当人们尝试使用不同模型进行测试时拓展,人们会认为不同模型产生回答的多样性更高,也会认为最后的效果会更加好。

但是,这些都只是经验之谈。截至目前,没有任何一个研究团队进行过定量研究。到底多少个不同模型参与测试时拓展最好?如果这些模型之间的性能差距很大,会不会影响最后的效果?“这些问题还没有人探索过,因此是我们打算后续探索的目标。”研究团队表示。

参考资料:

https://arxiv.org/pdf/2509.12434

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
众望所归!2大中超名宿驰援国足,获足协认可,辅佐邵佳一

众望所归!2大中超名宿驰援国足,获足协认可,辅佐邵佳一

国足风云
2025-11-06 09:18:01
新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新京报
2025-11-05 18:11:09
婆婆骨灰多出4颗钢钉,儿媳:怀疑不是家人骨灰!查监控发现缺失超2分钟

婆婆骨灰多出4颗钢钉,儿媳:怀疑不是家人骨灰!查监控发现缺失超2分钟

极目新闻
2025-11-05 15:38:00
一位72岁靠运送垃圾为生的老人,却在租住的简陋地下室里,研究哥德巴赫猜想!完全是“竞赛级别”

一位72岁靠运送垃圾为生的老人,却在租住的简陋地下室里,研究哥德巴赫猜想!完全是“竞赛级别”

观威海
2025-11-04 09:58:04
0-1!欧冠首支出局队基本确定:换了主帅继续输!6连败近乎被淘汰

0-1!欧冠首支出局队基本确定:换了主帅继续输!6连败近乎被淘汰

球场没跑道
2025-11-06 11:21:21
张又侠会见塞尔维亚国防部长

张又侠会见塞尔维亚国防部长

新华社
2025-11-06 13:26:14
于和伟说:“我上大一,我大姐去世,肺癌,我愣坐着,没有眼泪”

于和伟说:“我上大一,我大姐去世,肺癌,我愣坐着,没有眼泪”

百态人间
2025-11-04 15:58:52
中国南海战略大变化!不再填海建岛,却用钢铁浮桥将菲律宾逼入绝境

中国南海战略大变化!不再填海建岛,却用钢铁浮桥将菲律宾逼入绝境

林子说事
2025-11-01 02:46:24
“安世大劫案”越闹越凶,72 小时强夺中企 300 亿资产,日均损失 230 万欧

“安世大劫案”越闹越凶,72 小时强夺中企 300 亿资产,日均损失 230 万欧

星辰夜语
2025-11-06 15:22:14
残阵勇士喜忧参半,二轮秀后卫迎生涯之夜,两中锋得分挂蛋

残阵勇士喜忧参半,二轮秀后卫迎生涯之夜,两中锋得分挂蛋

谢说篮球
2025-11-06 15:21:18
恭喜!陈芋汐/掌敏洁排名第一,晋级决赛!

恭喜!陈芋汐/掌敏洁排名第一,晋级决赛!

五星体育
2025-11-06 12:23:04
俄防长委婉提醒中国,普京担心的是:中国被特朗普的一句话给骗了

俄防长委婉提醒中国,普京担心的是:中国被特朗普的一句话给骗了

墨羽怪谈
2025-11-06 14:22:04
湖人118-116马刺 球员评价:艾顿满分,6人及格,3人低迷

湖人118-116马刺 球员评价:艾顿满分,6人及格,3人低迷

篮球资讯达人
2025-11-06 14:27:11
初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

悬案解密档案
2025-10-21 09:24:49
60年代,邓小平被下放江西后,毛泽东:交由汪东兴落实保护办法

60年代,邓小平被下放江西后,毛泽东:交由汪东兴落实保护办法

历史龙元阁
2025-10-31 16:20:07
腿粗屁股大这样穿真好看,蓝色长袖搭黑色瑜伽裤,展示婀娜好身材

腿粗屁股大这样穿真好看,蓝色长袖搭黑色瑜伽裤,展示婀娜好身材

小乔古装汉服
2025-11-05 16:21:49
手机状态栏变“广告位”?网友炸锅,运营商回应情况属实

手机状态栏变“广告位”?网友炸锅,运营商回应情况属实

雷科技
2025-11-05 16:49:49
中甲第30轮:广州豹3-0南通,4喜2忧,豪取三分

中甲第30轮:广州豹3-0南通,4喜2忧,豪取三分

李杻手工制作
2025-11-06 10:22:20
明朝太子朱见深洗澡时,乳娘进来加水,他邀共浴,乳娘竟直接同意!

明朝太子朱见深洗澡时,乳娘进来加水,他邀共浴,乳娘竟直接同意!

马蹄烫嘴说美食
2025-11-06 10:57:55
泰国国王哇集拉隆功将对中国进行国事访问

泰国国王哇集拉隆功将对中国进行国事访问

界面新闻
2025-11-06 15:05:34
2025-11-06 16:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1299198文章数 4379关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

男子打车将手机遗忘车内 司机将手机"丢"到300公里外

头条要闻

男子打车将手机遗忘车内 司机将手机"丢"到300公里外

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

艺术
时尚
数码
手机
亲子

艺术要闻

“塑料凳”大厦?西安新地标213米造型引热议!

中国色特别策划 | 故宫技艺与古意新生

数码要闻

无散热也能满血!长江存储致态小翼e7 1TB SSD评测:原厂品质保障下的性价比王者

手机要闻

达尔优高校电竞赛广州站即将打响,11月决战羊城之巅,粤战越勇

亲子要闻

亲生的和亲自生的还是有区别的!

无障碍浏览 进入关怀版