网易首页 > 网易号 > 正文 申请入驻

研究人员在离线学习加入多样性激励,减轻创意写作“AI味”

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

自 2025 年起,AI 业内先后推出了 Cursor、Gemini CLI、Qwen CLI、GPT-codex 等基于大模型的自动化代码生成工具,展现了 AI 发展的下一个风口——即利用大模型调用各种分析工具,更好地完成自动化代码生成或辅助人类更快速地进行代码工作。

基于此,上海交通大学本科校友、美国西北大学博士生郁家豪和所在团队研究了如何提高大模型在代码生成这项复杂任务上的性能。


图 | 郁家豪(来源:郁家豪)

经调研,测试时拓展(TTS,Testing Time Scaling)被广泛应用在代码生成上,即先是生成多个候补答案,并通过对比选取最好的方案,来取得相对较好的结果。同时,离线学习(offline learning),即提前生成好数据再让大模型进行学习也是 AI 社区中一种主流的做法。相比在线学习(online learning)需要同时采集数据和训练模型的做法,离线学习所需要的计算资源更低,更方便人们开展算法实验。

但是,研究团队发现离线学习会在一定程度上损失大模型生成回答的多样性,从而会降低测试时拓展时所带来的性能提升。在代码生成任务中,如果生成的多个候补回答非常相近就会造成冗余,以至于并不能很好地提升性能。因此,如何在离线学习的场景下,解决模型生成回答多样性不足的问题,是研究团队的工作重点。

为了解决这一问题,他们提出一种新型训练方法,即在离线学习的损失项中加入了鼓励多样性这一项,通过控制多样性的做法,使得模型在离线学习之后能够生成不一样的候补回答,而不是生成相似的单一回答。这样一来,在后续的测试时拓展时,最终的模型准确率相比常规的离线学习算法有着很高提升。

最终,研究团队在开源数据集 SWE-Bench 上验证了相关结果,证明其所训练的模型取得了 SWE-Bench-Verified 开源榜单第四、SWE-Bench-Lite 开源榜单第一的好成绩,证明了这一算法的合理性。

通过和其他团队的在线学习训练模型方案加以对比,研究团队发现本次方法可以在一定程度上弥补离线学习相比在线学习的天然多样性不足,为在需要测试时拓展的复杂问题上引申出了“除在线学习以外”的新思路,即引入了鼓励多样性的离线学习的新思路。


(来源:https://arxiv.org/pdf/2509.12434)

在应用前景上:

首先,在一些需要多轮交互以及调用工具的复杂任务比如代码生成、数学竞赛、网络攻防夺旗赛(CTF,Capture The Flag)中,可以使用类似技术更高效地进行模型训练。另外,对于一些复杂的数学竞赛题目来说,当使用那些鼓励生成多样性训练的模型的时候,在多次尝试之中可以给出不同的解题思路,从而提高最终的解题率。

其次,在创意写作方面,大模型的创意写作一直被诟病“AI 味很重”,AI 经常被吐槽喜欢使用一些固定句式。而通过鼓励多样性,本次方法也能在某种程度上减轻模型的固化回答,使得创意写作更加优质和更加多样化,从而更好地启发人类的写作思路。

研究团队表示,研究中最难忘的事情便是离线学习数据采集的模型选择。他们最初计划使用 Anthropic 的商业模型 Claude Sonnet 4 进行采集,采集一小部分数据之后发现课题组开销竟然达到五百多美元。评估一下之后他们发现,要完整地进行数据采集可能需要高达上万美元的开销,这超出了课题组的预算。于是,他们开始寻求替代模型,同时替代模型必须具备较好的智能体代码生成能力。

在此期间,恰逢国产模型(国模)出现了一波井喷式爆发。从 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5,这些国模的价格都远比 Anthropic 的模型要便宜。研究团队进行了几次小样本采集实验,结果发现这三个国模的性能都接近 Claude Sonnet 4,完全可以作为实验代替模型。更巧的是,GLM-4.5 在发布之后,其背后公司推出了一个月内试用 1 万亿 token 的套餐,这正好与研究团队的实验节奏相吻合。于是,他们使用 GLM-4.5 提供的套餐完成了离线数据采集,采集数据的开销从预期的上万美元压缩到 50 元人民币。“并且在后学的模型微调中,这些数据的质量也很高,这具体反应在了微调之后的模型性能上。”研究团队告诉 DeepTech。

同时,研究团队用于微调的模型也是 Qwen3-coder-30B,这也是一款国模。当前,大模型研究社区也在普遍采用最新 Qwen 模型作为微调任务。“这些经历让我们感慨:在 2023 年,开源领域几乎只有 Llama,大家进行模型微调研究都只基于 Llama2 进行;在 2025 年,国模已经完成了接力棒的交接,代替 Llama 成为了开源领域的主流,并且和闭源模型的差距也在不断缩小。”研究团队表示。

后续,他们打算针对回答多样性和测试时拓展的性能加以进一步研究。之所以开展这一方向是因为:通过评估其他使用闭源模型的研究团队在 SWE-Bench 上的提交结果,该团队发现当人们尝试使用不同模型进行测试时拓展,人们会认为不同模型产生回答的多样性更高,也会认为最后的效果会更加好。

但是,这些都只是经验之谈。截至目前,没有任何一个研究团队进行过定量研究。到底多少个不同模型参与测试时拓展最好?如果这些模型之间的性能差距很大,会不会影响最后的效果?“这些问题还没有人探索过,因此是我们打算后续探索的目标。”研究团队表示。

参考资料:

https://arxiv.org/pdf/2509.12434

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8岁男孩确诊结肠癌:他吃的不是零食,是命

8岁男孩确诊结肠癌:他吃的不是零食,是命

消化石医生
2026-02-27 07:02:22
诺基亚N97杀疯了:7.2英寸直屏+6000mAh+2亿主摄

诺基亚N97杀疯了:7.2英寸直屏+6000mAh+2亿主摄

凉了时光人
2026-03-07 09:31:03
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
还没打完伊朗,美军选好下一个目标?抢在特朗普前,中方援助先到

还没打完伊朗,美军选好下一个目标?抢在特朗普前,中方援助先到

面包夹知识
2026-03-07 13:31:51
澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

第7情感
2026-02-23 20:45:16
武汉见!中国女篮VS捷克,开球时间出炉,央视镜头为何总给女观众

武汉见!中国女篮VS捷克,开球时间出炉,央视镜头为何总给女观众

体育大学僧
2026-03-07 10:17:29
伊朗重磅宣布:击中美国油轮!

伊朗重磅宣布:击中美国油轮!

占豪
2026-03-05 19:01:59
官方:皇马与阿联酋航空续约至2031年;据悉价值每年7400万欧

官方:皇马与阿联酋航空续约至2031年;据悉价值每年7400万欧

懂球帝
2026-03-07 14:11:07
中东还没结束,亚太又出问题?朝鲜突发导弹,特朗普收到一封挑战书

中东还没结束,亚太又出问题?朝鲜突发导弹,特朗普收到一封挑战书

策略述
2026-03-06 17:26:03
一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

达文西看世界
2026-03-02 14:25:12
北京小客车摇号重要通知!

北京小客车摇号重要通知!

小蜜情感说
2026-03-07 07:19:10
一周内落地!手机全面涨价,内存比黄金还贵,千元机要消失了?

一周内落地!手机全面涨价,内存比黄金还贵,千元机要消失了?

文青大叔说
2026-03-07 17:12:10
郭指导笑谈“抢断”富永启生名场面:他运球幅度有点大运到我手了

郭指导笑谈“抢断”富永启生名场面:他运球幅度有点大运到我手了

篮球看比赛
2026-03-07 16:13:26
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
美国前伊朗问题特使:美以对伊开战不正当 不必要 不合法

美国前伊朗问题特使:美以对伊开战不正当 不必要 不合法

每日经济新闻
2026-03-07 17:28:49
魔兽第一关系户!部落大酋长是他二姨,联盟摄政王是他爹

魔兽第一关系户!部落大酋长是他二姨,联盟摄政王是他爹

17173游戏网
2026-03-06 15:22:59
2026年最值得价值投资的十只个股

2026年最值得价值投资的十只个股

风风顺
2026-03-07 08:21:30
随着巴黎圣日耳曼爆冷1-3轰然倒下,法甲最新积分榜出炉

随着巴黎圣日耳曼爆冷1-3轰然倒下,法甲最新积分榜出炉

侧身凌空斩
2026-03-07 06:34:39
真被拜登说中了?让特朗普干完这4年,美国或将成为世界老二?

真被拜登说中了?让特朗普干完这4年,美国或将成为世界老二?

纪中百大事
2026-03-07 11:52:30
98年女同学邀我去她家看碟片,午夜时分,她家空无一人

98年女同学邀我去她家看碟片,午夜时分,她家空无一人

不易一字
2026-02-27 17:18:50
2026-03-07 18:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2390892文章数 5725关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

中国货船"铁娘子"号通过霍尔木兹海峡 大量船舶仍滞留

头条要闻

中国货船"铁娘子"号通过霍尔木兹海峡 大量船舶仍滞留

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

周杰伦田馥甄的“JH恋” 被扒得底朝天

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

旅游
教育
家居
公开课
军事航空

旅游要闻

哈尼梯田水满田畴 游客尽享“天空之镜”

教育要闻

全国人大代表刘宏:校园餐绝不能从孩子嘴里“抠钱”

家居要闻

暖棕撞色 轻法奶油风

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美第三个航母打击群据称准备部署至中东

无障碍浏览 进入关怀版