网易首页 > 网易号 > 正文 申请入驻

只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】南加州大学团队只用9美元,就能在数学基准测试AIME 24上实现超过20%的推理性能提升,效果好得离谱!而其核心技术只需LoRA+强化学习,用极简路径实现超高性价比后训练。

只用9美元,在数学基准测试AIME 24上,实现了超过20%的推理性能提升!

来自南加州大学(University of Southern California,USC)的研究团队,基于LoRA的强化学习(RL)训练了1.5B推理模型——

这种极简的方法训练出的模型不仅能与当前最先进的强化学习推理模型相媲美,有时甚至超越它们,即便它们是基于相同底座模型构建的。

论文链接:https://arxiv.org/abs/2504.15777

在AIME 24推理任务中,最好的新模型实现了超过20%的性能提升,达到了43%的Pass@1准确率,而训练和评估的总成本仅为9美元

在X上,19岁获得博士学位、AI初创的CEO「少年天才」Tanishq Mathew Abraham推荐了此论文,已有数万浏览。

X用户Omar则表示:新方法令人激动,是金融科技的灯塔!完美契合金融科技的增长需求!

Tina:利用LoRA的微型推理模型

开源的微型推理模型Tina算法系列,结合了三大关键技术。


  1. 强大而轻量级的基础模型:所有的Tina模型都基于DeepSeek-R1-Distill-Qwen-1.5B构建而成,在极小的计算资源占用下展现出色能力。

  2. 参数高效后训练微调(Parameter-efficient post-training):在强化学习(RL)阶段,采用低秩适应(LoRA)技术,显著降低了计算成本,同时不减推理性能。实际上,与全参数微调相比,有时甚至能提升模型的推理性能!

  3. 精选的数据集:在精简而高质量的数据集上,全部Tina模型都进行后训练微调,进一步降低了整个流程的计算复杂度。

开源推理模型时间线:开源「推理复制品」(reasonging replicas)旨在复现高级推理模型的性能

效果好得邪门!

与使用相同基础模型的SOTA模型对比,Tina模型不仅具备竞争力,有时甚至还能超越它们——

所需成本却只是它们的零头

简单来说,就是:更少的算力,带来了更高的性能

下图1展示了Tina模型最佳checkpoint和基准模型的比较结果,其中推理性能(reasoning performance)表示在AIME24/25、AMC23、MATH500、GPQA和Minerva上的平均得分。

图1:Tina模型与基准模型的整体比较

只经过极少量的后训练,Tina模型在性能上就比基础模型提升了超过20%,并且在表现最好的checkpoint上,在AIME24基准测试中,取得了43%的Pass@1成绩。

在六个推理任务上,Tina模型与相应的全参数训练的最先进(SOTA)模型之间的性能比较

而且,复现表现最佳Tina检查点只需花费9美元,若从头开始复现实验的全部过程,成本也仅为526美元!

计算成本分解,以美元($)为单位进行衡量

在多个开源推理数据集上,研究者验证了这一发现,并对学习率、LoRA的秩以及强化学习算法进行了消融实验。

总体来看,研究者发现Tina的性能在这些因素上都比较稳定,表现出较强的稳健性。

在六个推理任务上,对Tina模型的变体进行性能评估

此外,研究者特意使用了固定的超参数,避免了超参数调优所带来的成本,并进一步减少了计算开销。

但为什么呢?

初步的猜想

那么,为什么使用LoRA+强化学习在推理任务中会如此高效且效果显著呢?

在Tina模型的计算扩展行为以及训练动态中,研究者发现了一些有趣的模式。

观察一:在LoRA模型中,训练所使用的计算量增加反而会降低模型性能,这与全参数模型的表现相反。

这一发现揭示了一个现象:更少的计算,反而能带来更好的性能」。

Tina模型与基线模型在推理任务上的性能比较,同时对比了它们的训练计算复杂度(以FLOPs为单位)

观察2:在训练大多数Tina模型时,研究者注意到与问题格式相关的指标(如格式奖励、答案长度),会在训练过程中发生显著变化,而这种变化在准确性相关的指标上并不明显。

有趣的是,性能最佳的checkpoint,往往出现在这些格式指标发生变化的时候

基于LoRA的强化学习中的阶段转

根据这些观察,研究者提出了关于基于LoRA的强化学习后训练方法有效性的假设:

Tina训练方法之所以有效且高效,是因为LoRA能够迅速调整模型,让模型适应强化学习所奖励的推理结构,同时保留基础模型的大部分原有知识。

作者介绍


王上上(Shangshang Wang)

王上上(Shangshang Wang),目前是南加大的计算机科学和人工智能专业一年级博士生。

在上海科技大学,他完成了计算机科学的本科和硕士学位。

他的研究兴趣包括大语言模型(LLM)推理、测试时计算效率、人工智能在科学中的应用(Ai4science)、强化学习(RL)和带约束的优化算法(例如多臂老虎机问题)。

参考资料:

https://arxiv.org/abs/2504.15777

https://shangshangwang.notion.site/tina

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
酷派集团独董郭敬晖被立案调查并实施留置,公司长期亏损,市值约2亿港元

酷派集团独董郭敬晖被立案调查并实施留置,公司长期亏损,市值约2亿港元

红星资本局
2026-03-26 13:23:04
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
一个21岁中国姑娘在阿根廷机场,给所有为人父母者上了深刻的一课

一个21岁中国姑娘在阿根廷机场,给所有为人父母者上了深刻的一课

男孩派
2026-03-25 10:00:06
51岁港星广东县城卖10元云吞,凌晨5点起床,擦桌子收碗筷超勤快

51岁港星广东县城卖10元云吞,凌晨5点起床,擦桌子收碗筷超勤快

韩小娱
2026-03-17 11:28:35
清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

磊子讲史
2026-03-20 16:07:07
别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

西楼知趣杂谈
2026-03-18 11:48:25
13分优势遭15-0逆转!两大解说怒批:乌度卡完败,这输法真活该

13分优势遭15-0逆转!两大解说怒批:乌度卡完败,这输法真活该

体育见习官
2026-03-26 13:06:25
赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

海峡导报社
2026-03-25 08:17:03
长期外派甲方工作是一种什么体验?网友:一年也不回公司一次

长期外派甲方工作是一种什么体验?网友:一年也不回公司一次

另子维爱读史
2026-03-24 20:37:44
张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

草莓解说体育
2026-03-26 14:17:01
警醒!中国该提防巴基斯坦了,他们的小孩,随口就说“秦腔穷”

警醒!中国该提防巴基斯坦了,他们的小孩,随口就说“秦腔穷”

原来仙女不讲理
2026-03-25 17:54:03
美媒:“未来战争”轮廓在伊朗清晰浮现

美媒:“未来战争”轮廓在伊朗清晰浮现

参考消息
2026-03-25 10:25:08
广东不仅持续发放原民办代课教师生活补助而且还不断新增发放人数

广东不仅持续发放原民办代课教师生活补助而且还不断新增发放人数

郭爱华追问教育
2026-03-26 06:29:01
公益一类二类事业单位改革,多种事业编实行员额制,签订劳动合同

公益一类二类事业单位改革,多种事业编实行员额制,签订劳动合同

马蹄烫嘴说美食
2026-03-26 13:59:16
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
83岁赵朴初归乡,站在陈独秀墓前直言:墓碑上少了两个字太不应该

83岁赵朴初归乡,站在陈独秀墓前直言:墓碑上少了两个字太不应该

老谢谈史
2026-03-23 12:07:01
杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

娱乐领航家
2026-03-26 00:00:03
不能只让特朗普出风头,俄罗斯宣布重磅消息:跟中国有大事要谈

不能只让特朗普出风头,俄罗斯宣布重磅消息:跟中国有大事要谈

爱看剧的阿峰
2026-03-26 14:00:36
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
48小时突袭!美国正想停火,以色列战机却在伊朗头顶抢炸最后一波

48小时突袭!美国正想停火,以色列战机却在伊朗头顶抢炸最后一波

Ck的蜜糖
2026-03-26 14:24:22
2026-03-26 15:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
亲子
游戏
房产
军事航空

2026年了,最好看的还是“这件针织”!

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版