网易首页 > 网易号 > 正文 申请入驻

告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」

0
分享至

本文第一作者为 Virginia Tech 计算机系博士 Candidate 曾欣悦,研究聚焦于提升大语言模型的理论可解释性与实证性能,以增强其在实际应用中的可靠性与泛化能力(个人主页:https://susan571.github.io/)。通讯作者为周大为助理教授。

还在为海量 LLM 如何高效选型而头疼?还在苦恼资源有限无法穷尽所有微调可能?来自弗吉尼亚理工大学的最新研究,提出 LensLLM 框架,不仅能精准预测大模型微调性能,更大幅降低计算成本,让 LLM 选型不再是 “开盲盒”!

  • 论文名称:LensLLM: Unveiling Fine-Tuning Dynamics for LLM Selection
  • 作者:Xinyue Zeng, Haohui Wang, Junhong Lin, Jun Wu, Tyler Cody, Dawei Zhou
  • 所属机构:Department of Computer Science, Virginia Tech, Blacksburg, VA, USA 等
  • 开源地址:https://github.com/Susan571/LENSLLM
  • 论文链接:https://arxiv.org/abs/2505.03793

一、前言:

LLM 狂飙突进,选型为何成了 “瓶颈”?

大语言模型(LLMs)的浪潮席卷全球,从机器翻译、文本摘要到智能问答和对话系统,它们正以惊人的速度重塑着自然语言处理的边界。然而,当开源 LLM 如雨后春笋般涌现,例如 LLaMA、Falcon、Mistral 到 DeepSeek,如何在这片模型 “森林” 中找到最适合特定下游任务的那一棵 “参天大树”,却成了摆在研究者和开发者面前的巨大挑战。传统的模型选择方法,面对 LLM 的庞大规模和复杂性,往往耗费巨大计算资源却收效甚微,且泛化能力不足,如同在黑暗中摸索,充满不确定性。

二、LENSLLM 理论突破:

PAC - 贝叶斯泛化界限揭示微调深层动力学

为了打破这一 “瓶颈”,来自弗吉尼亚理工大学的研究团队,通过深邃的理论洞察,提出了一项突破性的理论框架 ——LensLLM。他们的研究基于全新的 PAC - 贝叶斯泛化界限(PAC-Bayesian Generalization Bound),首次从理论上揭示了 LLM 微调过程中测试损失(TestLoss)随训练数据量(TrainSize)变化的独特 “相变” 动力学。

在此基础上,研究团队进一步推导出推论 1,将泛化界限简化为:

图 1:LLM 微调过程中测试损失 L 随训练数据量 D 变化的相变现象。低数据量阶段为预幂律相,高数据量阶段为幂律相,两者之间存在明显的转折点。

三、LENSLLM:

NTK 驱动的 “透视眼”,精准预测性能

基于对微调相变机制的深刻理论理解,研究团队重磅推出了 LensLLM 框架 —— 一个革命性的 NTK(NeuralTangentKernel)增强型修正缩放模型。LensLLM 巧妙地将 NTK 引入,以更精准地捕捉 transformer 架构在微调过程中的复杂动态,有效表征了预训练数据对性能的影响。值得强调的是,LensLLM 的理论严谨性是其核心优势之一。它不仅提供了经验观察的理论解释,更在数学上建立了模型性能与数据量之间的精确关联,为 LLM 选型提供了坚实的理论支撑,而非仅仅依赖于经验拟合。

核心优势一:卓越的曲线拟合与预测能力

LensLLM 在曲线拟合和测试损失预测方面展现出令人印象深刻的准确性。在 FLAN、Wikitext 和 Gigaword 三大基准数据集上,LensLLM(蓝色方块)的表现始终优于基准模型(Rectified Scaling Law)(红色三角形),能更平滑、更准确地追踪实际测试损失曲线,且误差带(RMSE Band)更小,表明其预测结果更为稳定。

图 2:LensLLM(蓝色方块)在 FLAN、Wikitext 和 Gigaword 数据集上对 OPT-1.3b、GPT-2 和 T5-base 模型性能的曲线拟合效果。LensLLM 的 RMSE 值显著低于 Rectified Scaling Law(红色三角形),误差带更窄,表明其预测更稳定准确。

此外,通过 RMSE 对比预测损失和实际损失,LensLLM 的误差显著更低,例如在 Wikitext 数据集上,LensLLM 的误差通常是 Rectified Scaling Law 的 5 倍之小(例如,OPT-6.7B:0.026vs0.132;mT5-Large:0.028vs0.144)。在 FLAN 数据集上,LensLLM 保持低 RMSE(0.022-0.035),而 Rectified Scaling Law 的 RMSE 较高(0.087-0.15)。在 Gigaword 数据集上,LensLLM 的性能始终低于 0.036,而 Rectified Scaling Law 的 RMSE 在 0.094-0.146 之间波动。这些结果在三个数据集和十四种架构上证实了 LensLLM 在预测训练动态方面的卓越准确性。

表格 2: 预测测试损失与实际测试损失方面的均方根误差(RMSE)对比(×10-1).

核心优势二:更准、更快地选出 “最优解”

LensLLM 在 LLM 选型任务中也展现了压倒性的优势。在 FLAN、Wikitext 和 Gigaword 数据集上,LensLLM 在 Pearson 相关系数(PearCorr)和相对准确率(RelAcc)两项关键指标上均取得最高分。例如,在 Gigaword 数据集上,LensLLM 实现了高达 85.8% 的 PearCorr 和 91.1% 的 RelAcc。这意味着 LensLLM 能够更有效地对模型进行排名,并选出性能接近最优的模型。

图 3:LensLLM 在 FLAN、Wikitext 和 Gigaword 数据集上的 Pearson 相关系数和相对准确率表现。LensLLM(最右侧深蓝色条形)在所有数据集上均显著优于 Rectified Scaling Law、NLPmetrics、SubTuning、ZeroShot 和 ModelSize 等基线方法,展现了其在模型选型中的卓越能力。

更令人振奋的是,LensLLM 在保持高精度的同时,极大地降低了计算成本。与 FullTuning 相比,LensLLM 能够将计算成本降低高达 88.5%!LensLLM 在各项任务中的计算成本分别为 0.48、0.59 和 0.97×1021FLOPs,这大大优于 SubTuning 和 FullTuning。这得益于其创新的渐进式采样策略,使得 LensLLM 在更低的 FLOPs 消耗下,就能达到卓越的选型性能,让 LLM 选型真正实现高效与准确的平衡。

图 4:LLM 选型性能与计算成本的 Pareto - 最优曲线。LensLLM(橙色点)在显著降低 FLOPs(计算成本)的同时,保持了高水平的 Pearson 相关系数,相较于 Rectified(蓝色点)、SubTuning(绿色点)和 FullTuning(紫色点)展现出更优的效率。

四、未来展望:让 LLM 选型走向更广阔天地

这项突破性的研究为 LLM 的开发和应用提供了强大的新工具。它将帮助研究者和工程师们更自信、更高效地探索大模型的潜力,让 LLM 的普及和落地更进一步。LensLLM 的成功,不仅为 LLM 选型建立了新的基准,更开启了未来的无限可能。研究团队指出,未来有望将 LensLLM 扩展到多任务场景,探索其对模型架构设计的影响,并将其应用于新兴模型架构,例如 MoE(Mixture of Experts)模型。

潜在应用场景:

  • 资源受限环境下的模型部署:LensLLM 的高效性使其特别适用于边缘设备或计算资源有限的场景,能够快速筛选出兼顾性能与效率的最佳模型。
  • A/B 测试与模型迭代:在实际产品开发中,LensLLM 可以大大加速新模型的测试与部署周期,降低试错成本。
  • 个性化 LLM 定制:用户可以根据自身数据特点和任务需求,快速找到最匹配的 LLM,实现模型性能最大化。

五:结语

面对 LLM 的澎湃发展,LensLLM 犹如一座灯塔,照亮了高效、精准模型选择的道路。它将终结 LLM 微调的 “玄学”,引领我们进入一个更加 “智能” 和 “高效” 的 LLM 应用新纪元。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年我国留学回国人数达53.56万

2025年我国留学回国人数达53.56万

澎湃新闻
2026-04-10 10:00:07
郑丽文喊话访陆前后愿意见面,赖清德终于回应了,新党已做好准备

郑丽文喊话访陆前后愿意见面,赖清德终于回应了,新党已做好准备

小蔑谈事
2026-04-09 20:18:41
来了来了!曝将加盟CBA!完胜杨瀚森的大中锋

来了来了!曝将加盟CBA!完胜杨瀚森的大中锋

篮球实战宝典
2026-04-10 18:10:45
皇马翻盘拜仁的最后底牌是他?22岁边卫回归,防奥利塞就靠他了

皇马翻盘拜仁的最后底牌是他?22岁边卫回归,防奥利塞就靠他了

里芃芃体育
2026-04-10 06:00:12
“嘌呤”不读 piāo líng!动不动说自己高嘌呤的人注意了

“嘌呤”不读 piāo líng!动不动说自己高嘌呤的人注意了

未央看点
2026-04-09 00:53:14
耐克千元世界杯新战袍翻车!球员穿上肩膀凸起大包,官方急道歉

耐克千元世界杯新战袍翻车!球员穿上肩膀凸起大包,官方急道歉

仰卧撑FTUer
2026-04-10 16:49:02
6个进球全是乌龙!10岁孩子为何踢假球?赛制安排不合理引发乱象

6个进球全是乌龙!10岁孩子为何踢假球?赛制安排不合理引发乱象

中国足球的那些事儿
2026-04-10 13:16:45
洛夫顿伤情更新!卢伟亲承比较严重,就不应该带伤出战的!

洛夫顿伤情更新!卢伟亲承比较严重,就不应该带伤出战的!

篮球资讯达人
2026-04-10 22:52:56
4年8100万!回看哈特交易和续约,是否超值?

4年8100万!回看哈特交易和续约,是否超值?

篮球实录
2026-04-11 00:30:09
两岸共识达成,郑丽文吃完午宴,大陆盛情款待,1位特殊嘉宾现身

两岸共识达成,郑丽文吃完午宴,大陆盛情款待,1位特殊嘉宾现身

触摸史迹
2026-04-10 21:15:41
美国战争部长赫格塞斯可能为对伊朗军事行动背锅

美国战争部长赫格塞斯可能为对伊朗军事行动背锅

止戈军是我
2026-04-11 00:09:35
赛力斯获“车载便器”实用新型专利授权:可隐藏于座椅下方

赛力斯获“车载便器”实用新型专利授权:可隐藏于座椅下方

三言科技
2026-04-10 18:54:08
小米全新入门低价新车曝光!这也太棒了

小米全新入门低价新车曝光!这也太棒了

XCiOS俱乐部
2026-04-10 18:38:08
我出轨后丈夫再未亲近我,20年后体检,医生说的话让我当场泪崩

我出轨后丈夫再未亲近我,20年后体检,医生说的话让我当场泪崩

不易一字
2026-04-10 16:52:43
连上5次春晚,私下和恩师同居多年,怀孕后被骗流产,现57岁单身

连上5次春晚,私下和恩师同居多年,怀孕后被骗流产,现57岁单身

探源历史
2026-04-11 00:16:25
台北市长满意度近七成,国民党支持率却跌破三成。

台北市长满意度近七成,国民党支持率却跌破三成。

吃货的分享
2026-04-09 17:48:49
现在朝鲜的女人们也穿上黑丝袜了,很美

现在朝鲜的女人们也穿上黑丝袜了,很美

微微热评
2026-04-10 13:07:53
美国AI三巨头联手限制蒸馏:最便宜的那条路,被掐断了

美国AI三巨头联手限制蒸馏:最便宜的那条路,被掐断了

卢松松
2026-04-08 14:07:41
真相来了!浓眉亲承:因为锡安我才去了湖人,如果选莫兰特绝不走

真相来了!浓眉亲承:因为锡安我才去了湖人,如果选莫兰特绝不走

夜白侃球
2026-04-10 14:41:02
张雪拍卖会,45秒结束

张雪拍卖会,45秒结束

澎湃新闻
2026-04-10 23:03:03
2026-04-11 01:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12729文章数 142621关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

家居
艺术
亲子
教育
军事航空

家居要闻

复古风格 自然简约

艺术要闻

深圳顶级海景地段,为啥留下一排“幽灵别墅群”?真相成谜!

亲子要闻

武汉儿童配眼镜推荐,别再一着急就买,家长先把这5件事弄明白

教育要闻

生命教育润无声,家校社协同育担当——邱林家教好故事

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版