网易首页 > 网易号 > 正文 申请入驻

别再把长文切碎了,HiLight让AI直接在原文里划重点

0
分享至



在实际应用中,模型常常会忽略关键线索,这就是 “Lost in the Middle” 现象,即模型对出现在输入中间位置的信息关注度明显下降。现有的优化思路大致分为两类:

  • 硬选择:先检索或裁剪出相关片段,再送入模型,但可能会丢失对推理至关重要的上下文。
  • 软选择:通过摘要或压缩来缩短输入,但有损压缩难免引入失真。

两类方法都在 “动” 原始输入或原始权重。那么,能不能既保留完整的上下文,又能准确地告诉模型 “重点看哪里”?HiLight 提出一条 “输入侧干预” 的新路径:在原文中插入少量高亮标签,引导模型的注意力。

方法概述

在实际部署当中,大模型往往是API 付费调用、规模巨大,甚至权重不开放的黑盒服务,直接对它做 SFT 或 RL 微调往往不现实。因此,HiLight 选择了一条更实用的路径:冻结推理模型,训练一个轻量的 “助手模型” 来帮助它划重点。



  • 论文标题:Learning Evidence Highlighting for Frozen LLMs
  • 论文地址:https://arxiv.org/abs/2604.22565
  • 作者:Shaoang Li1,∗, Yanhang Shi1,∗, Yufei Li2, Mingfu Liang2, Xiaohan Wei2, Yunchen Pu2, Fei Tian2, Chonglin Sun2, Frank Shyu2, Luke Simon2, Sandeep Pandey2, Xi Liu2,†, Jian Li1,†
  • 机构:1 石溪大学(Stony Brook University),2 Meta AI
  • 说明:∗ 共同第一作者;† 共同通讯作者

流程如下:

1. 轻量模型(Emphasis Actor)阅读完整的上下文,为每个 token 打出重要性分数。

2. 轻量模型在得分最高的片段两边插入高亮标签,如 < start_important > 和 < end_important>。

3. 冻结的推理模型(Solver LLM)接收带标签的文本,完成推理并输出结果。



该训练过程只用 Solver 的任务奖励作为反馈信号,不需要任何人工标注的证据。在训练方式上,因为没有 token 级别的证据标注,研究者将高亮选择建模为强化学习问题,用下游任务指标(如 HR@10、EM、F1)作为奖励信号,通过分组策略梯度来更新 Actor。

为了防止 Actor “全部高亮” 的偷懒行为,该框架还引入了高亮预算机制:轻量语言模型最多只能标注一定比例的 token,并通过 span 合并策略将零散的 token 级选择合并为语义连贯的片段。



实验表明,HiLight 对预算取值并不敏感。这意味着,在实际部署时无需精细调参,选取一个合理的中间值即可。

实验结果

研究者在四个任务上进行了评测:Amazon-Beauty(序列推荐)、HotpotQA(多跳问答)、SQuAD 2.0(阅读理解)和 PubMedQA(生物医学分类)。对比方法涵盖了当前主流的 prompt optimization 方法,包括 PRL、BFRS、OPRO、DSPy(MIPROv2)和 APE。



提升幅度最大的是序列推荐(Amazon-Beauty),在其它任务上,虽然提升相对温和,但依然一致正向。

高亮>裁剪,保留上下文的优势

消融实验做了一个有趣的对比:把 Actor 选择的高亮片段单独裁剪出来喂给 Solver,会怎么样?



结果显示,在 Amazon-Beauty 上,裁剪也能取得不错的效果。但在 HotpotQA 上出现了相反的情况。因为多跳问答推理需要保留连接性的上下文,裁剪虽然能选出关键证据,却破坏了语义的完整性。而HiLight 在标注重点的同时保留了完整语境。

一个高亮模型,服务多个大模型

Actor 学习到的高亮策略具有很强的迁移能力。研究者用 Qwen3-14B 作为 Solver 训练 Actor,直接将其应用到五个从未见过的 Solver 上。与之相对比的做法是让目标 Solver 自己先高亮证据再作答。



结果显示,HiLight 的 Actor 高亮在五个 Solver 上的效果都明显优于自我高亮。原因也很简单,专门训练的轻量模型,比大模型自己猜 “哪里重要” 更靠谱。HiLight 的 Actor 是通过任务奖励显式训练出来的,知道什么样的证据能真正提升下游指标。

没有人工标注,却与人工高度重合

尽管训练过程中没有任何 token 级别的证据标注,但Actor 的高亮区域与 HotpotQA 数据集中人工标注的支持事实高度重合,最高达到 0.78 F1。随着 Actor 规模从 0.6B 增大到 8B,F1 从 0.68 单调上升到 0.78。



如图所示,Precision、Recall、F1 三项指标都随 Actor 规模单调提升,Precision 甚至达到 0.84,说明Actor 高亮的 token 中,绝大多数都是人工判定的关键证据。



上图展示了一个 HotpotQA 样本上的 token 级分数分布:蓝色曲线是 Actor 打出的重要性分数,红色阴影区是人工标注的支持事实所在区间。在一个包含 1200 多个 token 的长上下文中,Actor 只在两个狭窄的区域打出高分,而这两个区域正是数据集标注的 ground-truth 证据所在。

低部署成本

  • Solver 端 token 开销:< 1.01 倍(仅插入少量标签 token)。
  • Actor 推理延迟:0.6B 模型约 0.05 秒,4B 模型约 0.23 秒(p50),相比 Solver 的 8 至 18 秒可忽略不计。
  • 训练成本:仅需约 12K 次 Solver 调用,而 PRL 需要 120K 次,APE 需要 60K 次。

一个直观案例:序列推荐优化

在 Amazon-Beauty 的一个典型案例中,模型需要通过给定的用户历史购买摘要和一批候选商品,依据用户下一个可能感兴趣的商品,对候选商品进行重排序。Actor 精准地高亮标记了两个关键内容。这两个信号帮助 Solver 将真实目标商品(一款主打 “Grips Makeup To Last” 的底妆产品)的推荐排序从第 14 名提升到第 5 名,是一个显著的排序改进。



与黑盒注意力机制不同,HiLight 直接告诉用户:模型之所以提升该商品的排名,是因为看到了这两段高亮文本。这大大提升了模型推荐结果的可信度。

结语

HiLight 的思路非常简单,用一个轻量模型划重点,让大模型集中精力推理。这种方式带来了几个好处:

  • 性能提升:推荐任务性能提升可达 27%,问答任务也正向提升。
  • 不用改模型:Solver 冻结,API 友好。
  • 可解释:高亮标签能够直接告诉人类 “模型在看哪里”,以及模型决策的依据。
  • 可迁移:一个 Actor 可以服务于多个不同的大模型。
  • 低成本:训练成本低,额外延迟和推理成本小。

随着越来越多系统通过 API 调用大模型,HiLight 提供了一种不必改动 Solver 也能实现性能提升的办法。

值得一提的是,本文作者名单与 Meta 的 GR2(Generative Reasoning Re-ranker,arXiv:2602.07774)团队有相当程度的重叠,HiLight 这套做法很可能在不远的将来被用进 GR2 这样的生产级 re-ranking 系统里。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

游民星空
2026-05-10 17:44:13
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
心脏决定寿命?劝告中老年别太节俭,多吃这3样,心脏越吃越年轻

心脏决定寿命?劝告中老年别太节俭,多吃这3样,心脏越吃越年轻

芹姐说生活
2026-05-11 13:29:00
2-0领先遭拖入抢五拒逆转!17岁张本美和破魔咒:王曼昱仰天长啸

2-0领先遭拖入抢五拒逆转!17岁张本美和破魔咒:王曼昱仰天长啸

颜小白的篮球梦
2026-05-10 19:01:48
夺冠后,马琳哭了!王曼昱哭了!陈熠也哭了!三人会各自续写传奇

夺冠后,马琳哭了!王曼昱哭了!陈熠也哭了!三人会各自续写传奇

老糿尾声体育解说
2026-05-11 14:01:27
年报临时改、突然戴*ST!12.5万散户被闷杀,连吃6跌停

年报临时改、突然戴*ST!12.5万散户被闷杀,连吃6跌停

财经智多星
2026-05-11 12:05:34
香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

混沌录
2026-05-10 19:42:39
心理学有个发现:下等的挽回,是纠缠;中等的挽回,是断联;顶级的挽回,是让对方做这两件事

心理学有个发现:下等的挽回,是纠缠;中等的挽回,是断联;顶级的挽回,是让对方做这两件事

心理观察局
2026-05-11 09:07:16
炸锅!穆里尼奥回归皇马条件曝光,5 大球星要被扫地出门

炸锅!穆里尼奥回归皇马条件曝光,5 大球星要被扫地出门

奶盖熊本熊
2026-05-11 00:35:03
第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

澎湃新闻
2026-05-09 21:40:28
春节草原自驾游,一老牧民开口:远离年轻的寡妇,她住金色蒙古包

春节草原自驾游,一老牧民开口:远离年轻的寡妇,她住金色蒙古包

小月故事
2026-02-27 16:24:24
9500万欧蒸发!愤怒拉满,利物浦亿元强援为何集体失灵

9500万欧蒸发!愤怒拉满,利物浦亿元强援为何集体失灵

姜来不加盐
2026-05-11 15:57:21
军事 | 俄乌冲突当真要结束?普京对泽连斯基之语有点“情调”?

军事 | 俄乌冲突当真要结束?普京对泽连斯基之语有点“情调”?

新民周刊
2026-05-11 09:08:54
蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

芳芳历史烩
2026-05-04 01:43:43
西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

千言娱乐记
2026-05-11 14:49:45
官宣了,特朗普即将访问中国,访问时间加长!

官宣了,特朗普即将访问中国,访问时间加长!

阿龙聊军事
2026-05-11 10:48:35
刘翔的终身合同有多牛?退役 10 年不上班,照样环游世界

刘翔的终身合同有多牛?退役 10 年不上班,照样环游世界

橙星文娱
2026-05-10 11:55:24
舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

寒士之言本尊
2026-01-28 16:12:08
菲副总统弹劾案全票通过!杜特尔特已备好后手,马科斯算盘恐落空

菲副总统弹劾案全票通过!杜特尔特已备好后手,马科斯算盘恐落空

透视到底
2026-05-11 00:38:00
赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

阿废冷眼观察所
2026-05-11 00:49:20
2026-05-11 16:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12968文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
时尚
旅游
本地
手机

家居要闻

多元生活 此处无声

衬衫四季都能穿!简约大方适合日常穿搭,配裤子、裙子都好看

旅游要闻

四川西昌蓝花楹盛放 紫色花海点亮城市

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

华为Mate 80系列卖爆:销量逼近600万大关 史上最火Mate实至名归

无障碍浏览 进入关怀版