网易首页 > 网易号 > 正文 申请入驻

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

0
分享至

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务上(例如,常识问答和小学生数学题),即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案,使得深度推理大模型在解决问题时,能够自行决定是否进行深度思考,有利于计算资源更加合理的分配,提升大模型的推理效率。

据介绍,受限于数据与算力的规模,预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么,该如何进一步提升大模型的能力?近来,以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制,通过增加测试时计算资源的投入,在多种复杂任务上取得了优异的效果。与非深度推理大模型相比,深度推理大模型通过模仿人类进行深度思考,能够更加准确地理解用户的需求,更加深入地分析用户提出的问题。

然而,目前的深度推理大模型面临严重的冗余思考问题:即使面对例如“1+1=?”这样的简单问题,深度推理大模型也需要进行长时间的思考,造成了计算资源的浪费。

实际上,人类的思考模式可以分为“根据直觉得出答案”的快思考和“进行深入分析得出答案”的慢思考。在面临一些简单的问题时,人类往往能够通过直觉直接给出答案。

受到人类思考模式的启发,该团队提出了这样一个问题:如何赋予深度推理大模型自动切换快慢思考的能力,自行决定是否需要进行深度思考,从而更加合理地利用计算资源?

针对该问题,他们提出了一种创新性解决方案。具体来说,本研究首先对非推理模型(模仿人类快思考,直接给出答案)和深度推理模型在简单任务(例如,常识问答和小学生数学题)上均成功解决的问题进行统计,收集这类问题上深度推理模型的推理思维链。通过大量比较推理思维链的异同,本研究总结出“必要推理”和“冗余推理”的多条特征,并根据此将深度推理思维链分类为必要推理和冗余推理,将冗余推理中的深度推理部分删除,构成一批混合推理思维链数据集。最后,基于该数据集对深度推理模型进行监督微调,赋予深度推理模型自动切换快慢思考的能力。

因此,本研究对实现“Test-time Scaling Law”具有十分重要的意义,其赋予了深度推理大模型自动切换快慢思考的能力,使得模型能够更加合理的分配计算资源。因此,模型能够通过内部知识直接给出一些简单问题的答案,也能够开启深度思考,细致地分析一些困难的问题。

据介绍,本次研究项目是 OPPO 与浙江大学联合攻关课题之一。受年初 DeepSeek-R1 一系列研究的启发,该团队尝试着来探索 DeepSeek-R1 模型的相关性质。如前所述,他们发现在使用 DeepSeek-R1 模型时,即使问很简单的问题,例如“1+1=?”或者“请帮我修改我的作业”之类的问题,也会生成特别长的思维链。这实际上是不必要的,不仅增长用户等待时间,还会浪费计算资源。

在研究初期,最困扰该团队的是如何设计稳定的模型输出结果验证器。一方面,他们发现 DeepSeek-R1 这类模型,遵循指令的能力不够优秀。这就导致模型推理的结果不具有特定的格式,加大了提取模型结果的难度。

另一方面,该团队自己构建了许多模型的输出结果验证器,但是这些结果验证器没有很好地考虑各种输出结果的风格,十分不稳定。有时会出现模型回答是正确的,但是并未正确地提取模型的答案。或者提取到错误的模型答案导致无法正确地评估各个模型的效果,以及无法正确地评估该团队所提出方法的效果。

在这个问题解决之后,该团队最初始的方案是想基于 GRPO 算法,利用强化学习的方式去激发出模型快慢思考的能力。然而,DeepSeek-R1 这一类模型指令遵循能力差,该团队设计了许多 prompt,都无法在训练的初期让模型输出跳过深度思考过程的回答。于是该团队转向设计奖励函数,期望能够通过设计一类特殊的奖励函数,让模型的思考过程长度首先降为 0,然后慢慢增长。经过该团队多次尝试,该团队设计了一类在理论上能够达到该效果的奖励函数,但是经过多次尝试,该奖励函数在实际中并未达到该团队的目标效果。

这个时候该团队尝试着使用 DPO 算法,将快思考的回答作为正样本,慢思考的回答作为负样本,进行模型训练。该团队进行了许多实验,DPO 效果极其不稳定,训练出的模型均表现出效果大幅下降。在阅读相关文献后,该团队发现,DPO 这类算法不适合分布剧烈变化的情况。于是最后该团队尝试使用监督微调的方式,进行模型的训练。具体做法是,收集训练集上推理模型的正确回答,删除这其中非推理模型也能解决的问题上推理模型的深度思考过程,使用监督微调进行训练。这个方案在初期取得了相比于之前两个方案更优的效果:模型性能不会大幅下降,同时模型能够开始自行决定是否思考。

然而,该团队发现,这个方案仍然无法很好地迁移到其他场景下,仍然会造成模型性能的大幅降低。于是该团队开始考虑,是否在非推理模型能够解决的问题上,模型的一部分深度思考过程也是必要的。从这个想法出发,该团队开始利用大模型对深度思考过程进行分类,将其分类为有效思考和冗余思考,重新构造数据集进行监督微调。最终,在这个方案下,该团队做出了比较好的效果。尽管该团队的研究已经赋予了推理大语言模型自动切换快慢思考的能力,但目前 OThink-R1 还依赖大模型 LLM-Judge 来判断推理冗余。未来该团队期望继续深入研究,以端到端的方式来赋予模型自动切换快慢思考的能力。

参考资料:

标题:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

链接: https://arxiv.org/abs/2506.02397

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

项鹏飞
2026-03-23 20:18:18
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

文史明鉴
2026-03-26 15:22:47
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

铭记历史呀
2026-03-09 15:28:19
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

雪中风车
2026-03-26 09:16:02
美国收到糟糕信号!中方72岁老将刚回国,东盟十一国使节齐聚北京

美国收到糟糕信号!中方72岁老将刚回国,东盟十一国使节齐聚北京

通鉴史智
2026-03-26 15:20:48
军统天津站组长罗镇被抓,罗荣桓:他就是军区司令邢仁甫,大叛徒

军统天津站组长罗镇被抓,罗荣桓:他就是军区司令邢仁甫,大叛徒

抽象派大师
2026-03-25 12:55:59
这是目前为止,我见过腰最细的女生,没有之一

这是目前为止,我见过腰最细的女生,没有之一

草莓解说体育
2026-03-03 19:15:05
东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

毒舌NBA
2026-03-26 13:11:59
一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

毒sir财经
2026-03-16 21:37:01
“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

翰飞观事
2026-03-24 17:00:30
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
貌美如花却身高2.26米,母亲为婚嫁发愁

貌美如花却身高2.26米,母亲为婚嫁发愁

流云随风去远方
2026-03-01 18:22:40
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
1989年哈梅内伊在北京吃烤鸭时,一张罕见留影,此后再未踏出国门

1989年哈梅内伊在北京吃烤鸭时,一张罕见留影,此后再未踏出国门

动物奇奇怪怪
2026-03-07 01:52:57
20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

明月清风阁
2026-03-25 14:50:09
2026-03-26 16:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16487文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
手机
健康
时尚
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

转头就晕的耳石症,能开车上班吗?

皮衣+裙,高级到炸

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版