网易首页 > 网易号 > 正文 申请入驻

苏州大学突破:8B模型长文本处理超越70B模型

0
分享至

这项由苏州大学计算机科学与技术学院的唐泽成、季佰蓓等研究人员领导的重要研究发表于2025年10月,研究报告编号为arXiv:2510.06915v1。该研究首次揭示了当前人工智能奖励模型在处理长文本时的严重缺陷,并提出了创新的训练策略,让小型模型在长文本场景下的表现甚至超越了规模大十倍的模型。

在人工智能快速发展的今天,奖励模型就像是AI系统的"品味裁判",它们负责评估AI生成内容的质量好坏,确保AI的回应既有用又安全。然而,当这些裁判面对长篇大论时,却经常出现令人意外的问题。苏州大学的研究团队发现了一个令人震惊的现象:即使是最先进的奖励模型,一旦处理的文本超过4000个字符,它们的判断准确率就会急剧下降到50%以下,基本上和随机猜测没什么区别。

这个发现的重要性不容小觑。在现实应用中,AI助手经常需要处理长篇报告、复杂对话历史或者多轮交互,而奖励模型的失效意味着AI系统无法准确评估自己的表现,就像一个厨师突然失去了味觉,无法判断菜品的好坏。

为了解决这个难题,研究团队提出了一套全新的多阶段训练策略。这个策略的核心思想可以用学习驾驶来类比:首先让模型在相对简单的环境下学会基本操作(短文本到长文本的数据合成),然后通过精细化训练让它在复杂环境下也能保持稳定表现(一致性多数投票对齐)。

在第一阶段,研究团队采用了"从短到长"的数据合成方法。就像教孩子游泳一样,他们先让模型在浅水区练习基本动作,然后逐步增加难度。具体来说,他们首先识别长文本中的关键片段,去除无关内容,让强大的模型在这些核心片段上生成可靠的判断,然后再将无关内容填充回去,形成完整的长文本训练样本。这样做的好处是确保了训练标签的可靠性,同时让模型学会在冗长文本中抓住要点。

第二阶段则采用了强化学习的方法,通过"一致性多数投票"来进一步优化模型。研究团队将传统的成对比较任务重新设计为独立的评分任务,让多个模型分别对同一内容进行评估,然后通过投票机制选出最一致、最可靠的判断作为训练目标。这个过程就像是组织一个专家评审团,通过集体智慧来确保评判的准确性和一致性。

这种训练策略的效果令人瞩目。研究团队在他们新构建的Long-RewardBench基准测试中发现,经过训练的8B参数模型不仅大幅超越了未经训练的同规模模型,甚至在许多任务上击败了参数量达到70B的大型模型。更令人惊喜的是,这些小模型的表现甚至能够媲美谷歌最新的Gemini 2.5 Pro这样的顶级商业模型。

Long-RewardBench是研究团队专门为评估长文本奖励建模能力而设计的综合性基准测试。这个基准涵盖了多种实际应用场景,包括长文档问答、文档摘要、安全性评估、代码理解等七个核心任务,文本长度从4K字符一直延伸到128K字符。测试包含两种评估方式:成对比较和多选排序,全面检验模型在不同复杂度下的表现。

在成对比较任务中,模型需要从两个候选回答中选择更好的一个,就像在两道菜中挑选更美味的那道。而在多选排序任务中,模型需要对3到4个不同质量的回答进行完整排序,这更考验模型的细致判断能力。研究团队通过精心设计的数据平衡策略,确保了测试的公平性和可靠性。

研究中一个特别有趣的发现是,传统的上下文扩展方法在奖励建模领域完全失效。研究团队尝试了包括位置插值和长文本监督微调在内的多种传统方法,结果发现这些方法不仅没有改善长文本性能,反而严重损害了模型在短文本上的表现。这就像是为了让汽车在高速公路上跑得更快而对发动机进行改装,结果却发现在城市道路上反而开不动了。

通过深入的失效模式分析,研究团队发现了两个主要问题:格式错乱和上下文忽略、判断与解释不一致。在长文本场景下,许多模型经常无法遵循预定的输出格式,或者生成的解释与最终判断相互矛盾。这表明模型在处理长文本时不仅仅是性能下降,而是出现了根本性的理解偏差。

为了验证方法的实用性,研究团队还进行了一项特别的实验:使用训练好的长文本奖励模型来指导其他模型的训练。结果显示,在LongBench等真实长文本任务上,被长文本奖励模型指导的模型表现明显优于传统方法训练的模型。这证明了长文本奖励建模不仅在理论上重要,在实际应用中也能带来显著改善。

这项研究的意义远不止于技术层面的突破。随着AI系统在复杂任务中的应用越来越广泛,从法律文档分析到科学论文审查,从代码质量评估到创意写作指导,都需要模型能够在长篇内容中保持准确的判断能力。研究团队的工作为这些应用奠定了重要基础。

特别值得注意的是,这种方法的成本效益比非常高。整个训练过程在8张A100 GPU上只需要36小时就能完成,总训练成本控制在4B tokens以内。这意味着即使是资源相对有限的研究机构和公司,也能够采用这种方法来改善自己的AI系统。

研究团队还将这种方法成功扩展到了判别式奖励模型上,证明了方法的普适性。无论是生成式还是判别式模型,都能从这种训练策略中获益。这种灵活性使得该方法能够适应不同的技术栈和应用需求。

从更广阔的视角来看,这项研究揭示了AI系统发展中一个重要的不平衡现象:模型的基础能力提升速度远超过对其评估和监督能力的发展。就像城市发展中交通基础设施跟不上汽车普及速度一样,AI领域也面临着类似的挑战。这项研究为缩小这种差距提供了重要的解决方案。

研究成果也指向了未来AI发展的一个重要方向:如何在保持高性能的同时确保系统的可控性和可解释性。长文本奖励建模技术的成熟将为开发更加智能、更加可靠的AI助手铺平道路,让这些系统能够在复杂的现实场景中提供更好的服务。

总的来说,苏州大学团队的这项研究不仅解决了一个重要的技术难题,更为AI系统的长期发展提供了宝贵的思路和工具。通过巧妙的训练策略设计,他们证明了小模型同样可以在特定任务上取得卓越表现,这对于推动AI技术的普及和应用具有重要意义。

Q&A

Q1:Long-RewardBench是什么?它和现有的AI评估有什么不同?

A:Long-RewardBench是苏州大学团队专门为评估长文本奖励建模能力而创建的基准测试。与现有评估不同,它专门测试AI模型在处理4K到128K字符长文本时的判断能力,涵盖文档问答、摘要生成、安全评估等七个实际应用场景,能够发现现有模型在长文本处理中的严重缺陷。

Q2:为什么8B参数的小模型能够击败70B参数的大模型?

A:这主要归功于苏州大学团队开发的多阶段训练策略。通过"从短到长"的数据合成和一致性多数投票对齐,小模型学会了在长文本中抓住关键信息并保持判断一致性。大模型虽然参数多,但没有针对长文本奖励建模进行专门优化,所以在这个特定任务上反而表现不如经过专门训练的小模型。

Q3:这项技术能应用到哪些实际场景中?

A:这项技术可以广泛应用于需要处理长文本的AI场景,比如法律文档分析、学术论文审查、代码质量评估、长篇创意写作指导等。特别是在AI助手需要理解复杂对话历史或多轮交互的情况下,这种长文本奖励建模技术能够显著提升AI系统的可靠性和实用性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

万象硬核本尊
2026-05-28 21:24:47
日股大跌,韩股休市

日股大跌,韩股休市

第一财经资讯
2026-06-03 08:14:45
大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

星耀国际足坛
2026-06-02 23:01:38
规培生都悄悄“不卷”了?满意度3.88,80%缺乏科研训练!退培要连五险一金都要返还!规培未来向何处去?

规培生都悄悄“不卷”了?满意度3.88,80%缺乏科研训练!退培要连五险一金都要返还!规培未来向何处去?

梅斯医学
2026-06-02 08:37:50
体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

黯泉
2026-05-20 16:13:40
2300名华人被美驱逐出境回国,回家或被关押

2300名华人被美驱逐出境回国,回家或被关押

君笙拂兮啊
2026-06-01 22:35:31
日菲私下瓜分近海,台独捧场不算完,还派船尾随骚扰大陆海警

日菲私下瓜分近海,台独捧场不算完,还派船尾随骚扰大陆海警

健身狂人
2026-06-03 07:49:20
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
1987年越南王牌飞行员越境挑衅,三枚导弹来袭,精英沦为阶下囚

1987年越南王牌飞行员越境挑衅,三枚导弹来袭,精英沦为阶下囚

唠叨说历史
2026-06-01 16:03:23
法网四强出两席!90后PK05后,德约终结者出局

法网四强出两席!90后PK05后,德约终结者出局

刘哥谈体育
2026-06-03 09:15:51
英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

李子橱
2026-05-23 11:35:10
19人名单太奇葩!后场挤进10人,内线却只留俩,郭士强怎么选?

19人名单太奇葩!后场挤进10人,内线却只留俩,郭士强怎么选?

酷侃体坛
2026-06-03 09:28:27
鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

云霄纪史观
2026-05-20 13:16:50
湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

哄动一时啊
2026-02-09 16:56:31
美国女子逛中国超市满脸疑惑,直言不敢相信:这真的算是超市吗

美国女子逛中国超市满脸疑惑,直言不敢相信:这真的算是超市吗

复转这些年
2026-05-21 18:54:44
骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

晓肂爱八卦
2026-05-23 04:51:05
钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

林轻吟
2026-05-22 07:33:52
千万不要吃“隔夜”的7种食物,剩了就扔,别拿健康开玩笑!

千万不要吃“隔夜”的7种食物,剩了就扔,别拿健康开玩笑!

牛锅巴小钒
2026-06-03 01:25:01
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
2026-06-03 11:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8614文章数 564关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
手机
本地
数码
公开课

亲子要闻

可愛小豬歡樂歌

手机要闻

苹果自研相机液冷方案:誓要根治iPhone相机发烫难题

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

小米烟感卫士2开售:双发射光源传感器防误报,售149元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版