网易首页 > 网易号 > 正文 申请入驻

大模型“想太多”怎么解?这位硕士生用强化学习为模型减负提效

0
分享至

Next Gen

欢迎来到“Next Gen”。人工智能的边界每日都在被拓展,一群富有远见卓识的青年学者正站在浪潮之巅。我们追踪并报道这些 AI 领域最具潜力的明日之星,展现他们在科研前沿的突破性工作,以及对未来智能时代的独到见解。他们是谁?他们如何思考?他们又将把 AI 带向何方?与我们一同发现那些正在定义未来的 AI 新生代。

易景阳是一名来自湖南的 00 后,目前在美国芝加哥大学数据科学专业攻读硕士学位。与其他同龄人相比,他的学术背景颇具特色——本科毕业于中国人民大学金融专业,而后跨界进入人工智能领域深造。这一跨学科的背景为他当前的研究提供了独特的视角。

最近,他和所在团队为解决大模型“过度思考”的问题,提出了一种简单而有效的方法 ShorterBetter[1]。该方法本质上是一个基于强化学习的公开模型,核心创新点在于通过特别设计的奖励函数,让推理模型能够在没有人工监督的情况下,自主寻找最佳思维链长度。

实验结果表明,这一方法能在复杂问题上将模型的输出长度显著缩短 50% 至 80%,同时保持较高的准确性,为解决大模型生成冗长内容的问题提供了一种实用且高效的思路。

易景阳对 DeepTech 表示:“ShorterBetter 方法的优势在于轻量级的设计,不仅简单,而且对算力的要求较低。研究人员或企业可以将这种方法用于后训练(post-training)的一个步骤,通过对模型输出进行修剪,从而有效减少无用的输出长度。”

见证“ChatGPT 时刻”后,他决定到 AI 专业“折腾折腾”

易景阳自认为是一个喜欢瞎“折腾”的人,这种特质体现在他敢于放下已有成果、不断探索新领域的勇气上。这种性格特质源于他与生俱来的好奇心,以及对新事物持续燃烧的激情。

回顾他的成长历程,这种特质早有端倪——尽管从小成绩优异,高中时还参加过化学竞赛,但他很快意识到理科竞赛并不适合自己,于是果断转向更感兴趣的文科领域。凭借出色的高考成绩,他顺利进入中国人民大学攻读金融学专业,并在本科期间创建了一个专注于社会科学研究的学术社团,定期组织开展相关研究和讨论活动。

2022 年年底,OpenAI 推出了 ChatGPT。当时,本来就密切关注 AI 动态的易景阳用了一个晚上的时间与 GPT 进行交流,探索它能否帮助执行一个复杂的任务——制作电子书阅读器。

那时,他几乎没有计算机科学或 Python 等编程语言的经验。结果 GPT 做出来的阅读器不仅可以阅读电子书,而且还能全文翻译。“这对我产生了巨大的震撼,我意识到大语言模型可能会彻底改变人们的工作、学习和生活方式,至少可以极大地提升学习效率。”易景阳回忆道。

2023 年上半年,在美团工作期间,易景阳对 AI 技术和商业应用的关注达到了新高度。随着对行业理解的深入,他内心要出去“折腾”的声音越来越强烈,最终汇聚成一个明确的职业转向决心——“我要去 AI 专业学习”。

他在咨询意见的过程中收到了不同反馈,甚至很多人劝他放弃这个想法。一位在硅谷工作的工程师对他直言:“AI 领域太卷了,科班出身的人都不好找工作,你就不要瞎折腾了!”

但是,易景阳还是坚持了自己的想法,他的父母也给予了无条件支持。“他们相信我的判断,还会去体验了 AI 产品,这也给了我莫大的动力。”易景阳说。

而他的初心是希望结合在金融领域的累积,做出一些跨学科的原创性工作。基于对技术发展趋势的判断,他认为 AI 基础知识将在未来十年内成为大学通识教育的重要组成部分。

恰逢芝加哥大学新成立数据科学研究所(Data Science Institute)——这个融合计算机科学与统计学、专注于 AI 前沿研究的学术机构为他提供了理想的发展平台。在这里,他先就读于经济学专业,从事劳动经济学研究,随后转入数据科学专业,师从谭宸浩教授。

这种独特的跨学科背景不仅赋予易景阳理解 AI 技术社会影响的独特视角,更使他能够创造性地融合经济学与社会科学研究方法。例如,在评估 AI 创业项目时,他会系统分析产品功能、用户需求和成本结构等多维因素,形成更全面的商业判断。

今年暑假,易景阳还参与了一个面向留学申请的创业项目,该项目通过智能 agent 技术整合全球高校研究生项目信息,为 DIY 申请者提供高效的信息服务。他进一步说道:“这个项目是把高校各种研究生项目的信息聚合起来,通过 agent 让用户能够更好地交互和了解信息。以前,学生可能需要和中介老师聊天来获取这些信息,但现在可以通过 agent 来实现。”

让模型“少想”却更聪明

今年 1 月,DeepSeek-R1 一经发布就受到了全球的瞩目。与此同时,也掀起了学术界对其性能特点的研究热潮。起初,腾讯团队发现推理模型在得到正确答案后,会进行不必要的反复验证[2]。

之后不久,易景阳与所在团队也在研究中发现了一种普遍的现象——尽管以 DeepSeek-R1 为代表的大模型推理能力很强,但输出效率存在明显不足。

这种低效性在简单问题的处理上表现得尤为突出。例如,当被提问“2+3 等于多少”这类基础算术问题时,模型会用非常冗长的思考过程来回答:先从“2+1+2,2+1+1+1”开始,然后还会经过“wait,let me check again”自我验证,最后以“let's finally verify the answer”结束。整个过程大概产生一两百个 token,才得出“等于 5”的答案。

这种过度思考的现象虽然与模型的训练机制有关,但对于简单问题而言显然是不必要的冗余。易景阳从系统设计的角度深入分析了这个问题的严重性:“在构建多模型 agent 系统时,如果单个模型的输出过于冗长,这些冗余内容会成为其他模型的输入上下文,从而在整个工作流中引入大量噪声。随着上下文窗口的快速膨胀,系统的整体性能将显著下降。”

研究初期,团队尝试过多种直观的解决方案,包括使用提示工程(prompt engineering)直接要求模型简洁回答,例如明确指令“直接给出答案,不要多想”。然而这些尝试均告失败,因为模型的推理模式是通过强化学习深度训练形成的,很难通过简单的表层指令改变其底层行为模式。

这一研究困境在美国斯坦福大学李飞飞教授团队的重要发现后出现了转机 [3]。该团队提出预算强制(Budget Forcing)方法,通过控制模型推理时的计算量(例如,在模型输出末尾添加“wait,let me think again”的提示),就能有效延长思维链并提升推理能力。

这一发现启发了易景阳的逆向思考:是否可以通过干预机制来抑制模型的重复验证行为?但实验证明,这种直接干预输出过程的方法会严重损害模型的原有能力。

真正的突破来自对美国卡耐基梅隆大学团队研究的借鉴,其提出可以使用强化学习来优化模型的输出长度[4]。在深入研读相关文献后,易景阳决定调整研究方向,采用强化学习训练模型自主探索最优输出长度。

他们首先提出了“样本最优长度”(SOL,Sample Optimal Length)的理论框架:对于给定的任何问题(无论它是奥林匹克竞赛难度的题,还是“2+3=5”这种简单题),在给定模型能力的情况下,总有一个最佳的输出长度区间。比如,难题的输出长度可能是 1000 个 token 的详细推导,而简单题可能是 10 个 token 的直接回答。

SOL 的核心挑战在于:一方面,人工标注所有问题的最优长度完全不现实;另一方面,人类专家实际上也无法准确预判每个问题的最优输出长度。

针对上述挑战,易景阳设计了一套创新的采样方法:对同一问题生成多个正确回答(如 10 个),从中选取最短的正确回答作为临时最优长度目标,再通过强化学习不断迭代优化。

这种方法形成了一个高效的递归训练循环——虽然每次只采样有限数量的输出,但经过 100-200 步的迭代训练后,模型的输出长度就能快速收敛到理想状态。

实验数据表明,以 DeepSeek-Distill-Owen-1.5B/7B 为基础模型时,ShorterBetter 方法在保持准确率不变的前提下,在领域内外各类推理任务中实现了最高 80% 的输出长度压缩。

这一发现挑战了此前业界的普遍假设——更长的思维链必然带来更高的正确率。值得注意的是,ShorterBetter 的实现并不需要大量计算资源,其本质是优化了模型的表达方式而非增强其核心能力。

易景阳用生动的比喻解释道:“这就像帮助一个有口吃问题的天才改善表达方式。我们的方法没有改变模型的智能水平,只是让它能够更简洁流畅地表达思想。目前,我们正在通过更多实验来验证这些理论假设。”

日前,相关论文以《ShorterBetter:引导推理模型寻找最优推理长度以实现高效推理》(ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning)为题发表在预印本网站arXiv[1]。论文作者包括易景阳、芝加哥大学硕士生王家铮和博士生李思达。

在易景阳看来,AI 技术正在以惊人的速度更新迭代,但同时技术同质化问题也日益严重。他以今年 3 月推出的 Manus 产品为例:虽然该产品最初凭借创新性获得广泛关注,但在短短几个月内,科技巨头们就迅速推出了功能相似甚至更强大的免费替代品。

这种现象揭示了 AI 行业的一个基本现实——在通用 agent 领域,头部科技公司凭借其庞大的资源储备和广泛的用户基础,能够以免费策略迅速占领市场,这使得初创企业几乎难以与之抗衡。

易景阳认为,这种市场格局对初创企业提出了严峻挑战。由于需要支付高昂的 API 使用费用,初创公司在开发通用 AI 产品时面临着巨大的成本压力,这种商业模式在长期竞争中明显不具备可持续性。因此,他认为初创公司应该避开与科技巨头在通用平台层面的直接竞争,转而深耕需要专业领域知识的垂直应用场景。

展望未来,易景阳表示,将持续关注那些兼具技术创新性和实际商业价值的 AI 发展方向。尤其是关注那些能够将前沿技术与具体行业需求紧密结合的应用场景,他认为这将是初创企业在 AI 时代实现突破的关键路径。

参考资料:

1.https://arxiv.org/pdf/2504.21370

2.https://arxiv.org/html/2412.21187v2

3.https://arxiv.org/abs/2501.19393

4.https://arxiv.org/abs/2503.04697

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海南“封关”,美国和新加坡竟然没有发声?

海南“封关”,美国和新加坡竟然没有发声?

流苏晚晴
2025-12-24 18:12:19
被美国关了一个多月,马杜罗想清楚了,委内瑞拉就该走现在的路

被美国关了一个多月,马杜罗想清楚了,委内瑞拉就该走现在的路

流年顛簸
2026-02-15 02:47:36
变脸比翻书快!卢比奥慕尼黑“爽约”,欧洲盟友被美国坑惨了?

变脸比翻书快!卢比奥慕尼黑“爽约”,欧洲盟友被美国坑惨了?

解锁世界风云
2026-02-15 10:53:36
噩耗!安徽 22 岁小伙巴厘岛溺亡,同伴见死不救,家属曝猛料,网友:不同情

噩耗!安徽 22 岁小伙巴厘岛溺亡,同伴见死不救,家属曝猛料,网友:不同情

王二哥老搞笑
2026-02-15 01:00:43
王毅就中日关系重申严正立场

王毅就中日关系重申严正立场

每日经济新闻
2026-02-14 22:28:15
2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

老特有话说
2026-02-09 23:34:10
年产能100万台!马斯克:擎天柱机器人2027年颠覆现状

年产能100万台!马斯克:擎天柱机器人2027年颠覆现状

快科技
2026-02-15 11:37:05
Rip谈如今的活塞:要脱帽致敬 他们没有拿队中的年轻球员去换巨星

Rip谈如今的活塞:要脱帽致敬 他们没有拿队中的年轻球员去换巨星

仰卧撑FTUer
2026-02-15 10:41:07
薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

抽象派大师
2026-01-26 19:07:26
880年,黄巢率兵攻入长安:将所有权贵门阀满门抄斩,一个不留!

880年,黄巢率兵攻入长安:将所有权贵门阀满门抄斩,一个不留!

南权先生
2026-02-13 15:24:25
2026年新名词:贷款卖房?一套房亏180万

2026年新名词:贷款卖房?一套房亏180万

恪守原则和底线
2026-02-14 06:55:05
1982年陈云在一份简报上批示“我主张严办”,邓小平看后十分赞同

1982年陈云在一份简报上批示“我主张严办”,邓小平看后十分赞同

元哥说历史
2026-02-15 11:10:03
7-5,6-1!吴易昺开门红:资格赛首战告捷,PK赛会4号种子冲正赛

7-5,6-1!吴易昺开门红:资格赛首战告捷,PK赛会4号种子冲正赛

刘姚尧的文字城堡
2026-02-15 09:52:13
高云翔现状:45岁发福不刮胡,定居天津有新家庭,今生活天差地别

高云翔现状:45岁发福不刮胡,定居天津有新家庭,今生活天差地别

查尔菲的笔记
2026-02-14 18:04:28
差距太明显!米切尔最高71分力压哈登61分,季后赛57分更是完胜

差距太明显!米切尔最高71分力压哈登61分,季后赛57分更是完胜

郝小小看体育
2026-02-15 07:35:36
赚美国钱回中国花?卷走美百亿巨款被判465年,他堪称最牛企业家

赚美国钱回中国花?卷走美百亿巨款被判465年,他堪称最牛企业家

嫹笔牂牂
2026-02-09 14:19:54
完了,全完了。澳门英皇宫殿一年净亏2.48亿,彻底崩了。

完了,全完了。澳门英皇宫殿一年净亏2.48亿,彻底崩了。

流苏晚晴
2026-02-12 17:03:00
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

墨印斋
2026-01-31 16:37:48
进球机器,凯恩已连续三个赛季为拜仁打进40+球

进球机器,凯恩已连续三个赛季为拜仁打进40+球

乐道足球
2026-02-15 10:26:23
中国游客在韩入住10米超长大床房,除夕夜房价超五千元,酒店:由8张双人床拼成,最多可入住4人

中国游客在韩入住10米超长大床房,除夕夜房价超五千元,酒店:由8张双人床拼成,最多可入住4人

极目新闻
2026-02-14 16:09:44
2026-02-15 12:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16269文章数 514615关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

男子卖房前一夜被买家再砍40万 使出一招后买家傻眼了

头条要闻

男子卖房前一夜被买家再砍40万 使出一招后买家傻眼了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

教育
手机
家居
本地
旅游

教育要闻

旋转作图第3讲,一个视频学会!

手机要闻

谢霆锋手持荣耀Magic V6被拍,新机有望今年3月发布

家居要闻

中古雅韵 乐韵伴日常

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

旅游要闻

马年春节游乐场嗨玩指南:尽兴玩 安全不掉线!

无障碍浏览 进入关怀版