网易首页 > 网易号 > 正文 申请入驻

苏州大学突破:8B模型长文本处理超越70B模型

0
分享至


这项由苏州大学计算机科学与技术学院的唐泽成、季佰蓓等研究人员领导的重要研究发表于2025年10月,研究报告编号为arXiv:2510.06915v1。该研究首次揭示了当前人工智能奖励模型在处理长文本时的严重缺陷,并提出了创新的训练策略,让小型模型在长文本场景下的表现甚至超越了规模大十倍的模型。

在人工智能快速发展的今天,奖励模型就像是AI系统的"品味裁判",它们负责评估AI生成内容的质量好坏,确保AI的回应既有用又安全。然而,当这些裁判面对长篇大论时,却经常出现令人意外的问题。苏州大学的研究团队发现了一个令人震惊的现象:即使是最先进的奖励模型,一旦处理的文本超过4000个字符,它们的判断准确率就会急剧下降到50%以下,基本上和随机猜测没什么区别。

这个发现的重要性不容小觑。在现实应用中,AI助手经常需要处理长篇报告、复杂对话历史或者多轮交互,而奖励模型的失效意味着AI系统无法准确评估自己的表现,就像一个厨师突然失去了味觉,无法判断菜品的好坏。

为了解决这个难题,研究团队提出了一套全新的多阶段训练策略。这个策略的核心思想可以用学习驾驶来类比:首先让模型在相对简单的环境下学会基本操作(短文本到长文本的数据合成),然后通过精细化训练让它在复杂环境下也能保持稳定表现(一致性多数投票对齐)。

在第一阶段,研究团队采用了"从短到长"的数据合成方法。就像教孩子游泳一样,他们先让模型在浅水区练习基本动作,然后逐步增加难度。具体来说,他们首先识别长文本中的关键片段,去除无关内容,让强大的模型在这些核心片段上生成可靠的判断,然后再将无关内容填充回去,形成完整的长文本训练样本。这样做的好处是确保了训练标签的可靠性,同时让模型学会在冗长文本中抓住要点。

第二阶段则采用了强化学习的方法,通过"一致性多数投票"来进一步优化模型。研究团队将传统的成对比较任务重新设计为独立的评分任务,让多个模型分别对同一内容进行评估,然后通过投票机制选出最一致、最可靠的判断作为训练目标。这个过程就像是组织一个专家评审团,通过集体智慧来确保评判的准确性和一致性。

这种训练策略的效果令人瞩目。研究团队在他们新构建的Long-RewardBench基准测试中发现,经过训练的8B参数模型不仅大幅超越了未经训练的同规模模型,甚至在许多任务上击败了参数量达到70B的大型模型。更令人惊喜的是,这些小模型的表现甚至能够媲美谷歌最新的Gemini 2.5 Pro这样的顶级商业模型。

Long-RewardBench是研究团队专门为评估长文本奖励建模能力而设计的综合性基准测试。这个基准涵盖了多种实际应用场景,包括长文档问答、文档摘要、安全性评估、代码理解等七个核心任务,文本长度从4K字符一直延伸到128K字符。测试包含两种评估方式:成对比较和多选排序,全面检验模型在不同复杂度下的表现。

在成对比较任务中,模型需要从两个候选回答中选择更好的一个,就像在两道菜中挑选更美味的那道。而在多选排序任务中,模型需要对3到4个不同质量的回答进行完整排序,这更考验模型的细致判断能力。研究团队通过精心设计的数据平衡策略,确保了测试的公平性和可靠性。

研究中一个特别有趣的发现是,传统的上下文扩展方法在奖励建模领域完全失效。研究团队尝试了包括位置插值和长文本监督微调在内的多种传统方法,结果发现这些方法不仅没有改善长文本性能,反而严重损害了模型在短文本上的表现。这就像是为了让汽车在高速公路上跑得更快而对发动机进行改装,结果却发现在城市道路上反而开不动了。

通过深入的失效模式分析,研究团队发现了两个主要问题:格式错乱和上下文忽略、判断与解释不一致。在长文本场景下,许多模型经常无法遵循预定的输出格式,或者生成的解释与最终判断相互矛盾。这表明模型在处理长文本时不仅仅是性能下降,而是出现了根本性的理解偏差。

为了验证方法的实用性,研究团队还进行了一项特别的实验:使用训练好的长文本奖励模型来指导其他模型的训练。结果显示,在LongBench等真实长文本任务上,被长文本奖励模型指导的模型表现明显优于传统方法训练的模型。这证明了长文本奖励建模不仅在理论上重要,在实际应用中也能带来显著改善。

这项研究的意义远不止于技术层面的突破。随着AI系统在复杂任务中的应用越来越广泛,从法律文档分析到科学论文审查,从代码质量评估到创意写作指导,都需要模型能够在长篇内容中保持准确的判断能力。研究团队的工作为这些应用奠定了重要基础。

特别值得注意的是,这种方法的成本效益比非常高。整个训练过程在8张A100 GPU上只需要36小时就能完成,总训练成本控制在4B tokens以内。这意味着即使是资源相对有限的研究机构和公司,也能够采用这种方法来改善自己的AI系统。

研究团队还将这种方法成功扩展到了判别式奖励模型上,证明了方法的普适性。无论是生成式还是判别式模型,都能从这种训练策略中获益。这种灵活性使得该方法能够适应不同的技术栈和应用需求。

从更广阔的视角来看,这项研究揭示了AI系统发展中一个重要的不平衡现象:模型的基础能力提升速度远超过对其评估和监督能力的发展。就像城市发展中交通基础设施跟不上汽车普及速度一样,AI领域也面临着类似的挑战。这项研究为缩小这种差距提供了重要的解决方案。

研究成果也指向了未来AI发展的一个重要方向:如何在保持高性能的同时确保系统的可控性和可解释性。长文本奖励建模技术的成熟将为开发更加智能、更加可靠的AI助手铺平道路,让这些系统能够在复杂的现实场景中提供更好的服务。

总的来说,苏州大学团队的这项研究不仅解决了一个重要的技术难题,更为AI系统的长期发展提供了宝贵的思路和工具。通过巧妙的训练策略设计,他们证明了小模型同样可以在特定任务上取得卓越表现,这对于推动AI技术的普及和应用具有重要意义。

Q&A

Q1:Long-RewardBench是什么?它和现有的AI评估有什么不同?

A:Long-RewardBench是苏州大学团队专门为评估长文本奖励建模能力而创建的基准测试。与现有评估不同,它专门测试AI模型在处理4K到128K字符长文本时的判断能力,涵盖文档问答、摘要生成、安全评估等七个实际应用场景,能够发现现有模型在长文本处理中的严重缺陷。

Q2:为什么8B参数的小模型能够击败70B参数的大模型?

A:这主要归功于苏州大学团队开发的多阶段训练策略。通过"从短到长"的数据合成和一致性多数投票对齐,小模型学会了在长文本中抓住关键信息并保持判断一致性。大模型虽然参数多,但没有针对长文本奖励建模进行专门优化,所以在这个特定任务上反而表现不如经过专门训练的小模型。

Q3:这项技术能应用到哪些实际场景中?

A:这项技术可以广泛应用于需要处理长文本的AI场景,比如法律文档分析、学术论文审查、代码质量评估、长篇创意写作指导等。特别是在AI助手需要理解复杂对话历史或多轮交互的情况下,这种长文本奖励建模技术能够显著提升AI系统的可靠性和实用性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

爆角追踪
2026-03-01 14:57:47
哈梅内伊之死和伊朗性史

哈梅内伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
伊朗宣布战果!

伊朗宣布战果!

占豪
2026-03-01 00:34:55
回顾:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长后怕不已

回顾:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长后怕不已

谈史论天地
2026-03-01 09:49:38
突发!多位明星全家被困中东,李茂弦子无眠,陈浩民收到轰炸警报

突发!多位明星全家被困中东,李茂弦子无眠,陈浩民收到轰炸警报

小椰的奶奶
2026-03-02 01:11:07
当不成总统了?27座美军基地被炸,美国爆发抗议,特朗普或被弹劾

当不成总统了?27座美军基地被炸,美国爆发抗议,特朗普或被弹劾

林子说事
2026-03-02 01:20:39
笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

夜深爱杂谈
2026-03-01 20:12:43
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
美国2个月内悍然对两国领导人发动袭击,继委内瑞拉、伊朗之后,下一个会是谁?专家:有可能是古巴

美国2个月内悍然对两国领导人发动袭击,继委内瑞拉、伊朗之后,下一个会是谁?专家:有可能是古巴

极目新闻
2026-03-01 15:07:54
网友预测明天早上10点半 deepseek 发布V4 模型,首次没给英伟达权限,选择与华为合作

网友预测明天早上10点半 deepseek 发布V4 模型,首次没给英伟达权限,选择与华为合作

风向观察
2026-03-01 17:11:32
中国军号:对于那一天我们不期待,但绝不惧怕!

中国军号:对于那一天我们不期待,但绝不惧怕!

潇湘晨报
2026-03-01 15:18:15
学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

火山詩话
2026-03-01 12:06:34
队长传射!7.2亿豪门2-1逆转 7轮6胜+11轮不败 赛季首次跻身前三

队长传射!7.2亿豪门2-1逆转 7轮6胜+11轮不败 赛季首次跻身前三

狍子歪解体坛
2026-03-01 23:58:16
深度 | 最高领袖身亡,美以叫嚣继续打,伊朗能否挺过47年来最致命危机?

深度 | 最高领袖身亡,美以叫嚣继续打,伊朗能否挺过47年来最致命危机?

上观新闻
2026-03-01 16:17:08
真的天塌!拔乳牙竟把孩子2颗恒牙拔掉,盐城一口腔医生整出事故

真的天塌!拔乳牙竟把孩子2颗恒牙拔掉,盐城一口腔医生整出事故

火山詩话
2026-03-01 18:08:52
伊朗最大的内鬼浮出水面!

伊朗最大的内鬼浮出水面!

仰望星空的一粒沙子
2026-03-01 22:29:18
特朗普:美国正在“大规模”打击伊朗 消息人士:伊朗遇难者身份将令人震惊

特朗普:美国正在“大规模”打击伊朗 消息人士:伊朗遇难者身份将令人震惊

环球网资讯
2026-02-28 16:16:05
特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

健身狂人
2026-03-01 13:53:47
高兴太早,中国男篮大胜中国台北队,却收坏消息,打日本队要小心

高兴太早,中国男篮大胜中国台北队,却收坏消息,打日本队要小心

宗介说体育
2026-03-01 18:19:54
重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

每日经济新闻
2026-02-28 10:40:45
2026-03-02 06:24:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7389文章数 553关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

游戏
旅游
本地
房产
公开课

以《生化危机》命名?Capcom解答对RE引擎的误读

旅游要闻

春雨落瘦西湖,梅花一开,才是江南真春天!

本地新闻

津南好·四时总相宜

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版