网易首页 > 网易号 > 正文 申请入驻

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

0
分享至

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务上(例如,常识问答和小学生数学题),即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案,使得深度推理大模型在解决问题时,能够自行决定是否进行深度思考,有利于计算资源更加合理的分配,提升大模型的推理效率。


图 | 张盛佳(来源:张盛佳)

据介绍,受限于数据与算力的规模,预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么,该如何进一步提升大模型的能力?近来,以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制,通过增加测试时计算资源的投入,在多种复杂任务上取得了优异的效果。与非深度推理大模型相比,深度推理大模型通过模仿人类进行深度思考,能够更加准确地理解用户的需求,更加深入地分析用户提出的问题。

然而,目前的深度推理大模型面临严重的冗余思考问题:即使面对例如“1+1=?”这样的简单问题,深度推理大模型也需要进行长时间的思考,造成了计算资源的浪费。

实际上,人类的思考模式可以分为“根据直觉得出答案”的快思考和“进行深入分析得出答案”的慢思考。在面临一些简单的问题时,人类往往能够通过直觉直接给出答案。


图 | OThink-R1 主体框架(来源:张盛佳)

受到人类思考模式的启发,该团队提出了这样一个问题:如何赋予深度推理大模型自动切换快慢思考的能力,自行决定是否需要进行深度思考,从而更加合理地利用计算资源?

针对该问题,他们提出了一种创新性解决方案。具体来说,本研究首先对非推理模型(模仿人类快思考,直接给出答案)和深度推理模型在简单任务(例如,常识问答和小学生数学题)上均成功解决的问题进行统计,收集这类问题上深度推理模型的推理思维链。通过大量比较推理思维链的异同,本研究总结出“必要推理”和“冗余推理”的多条特征,并根据此将深度推理思维链分类为必要推理和冗余推理,将冗余推理中的深度推理部分删除,构成一批混合推理思维链数据集。最后,基于该数据集对深度推理模型进行监督微调,赋予深度推理模型自动切换快慢思考的能力。

因此,本研究对实现“Test-time Scaling Law”具有十分重要的意义,其赋予了深度推理大模型自动切换快慢思考的能力,使得模型能够更加合理的分配计算资源。因此,模型能够通过内部知识直接给出一些简单问题的答案,也能够开启深度思考,细致地分析一些困难的问题。

据介绍,本次研究项目是 OPPO 与浙江大学联合攻关课题之一。受年初 DeepSeek-R1 一系列研究的启发,该团队尝试着来探索 DeepSeek-R1 模型的相关性质。如前所述,他们发现在使用 DeepSeek-R1 模型时,即使问很简单的问题,例如“1+1=?”或者“请帮我修改我的作业”之类的问题,也会生成特别长的思维链。这实际上是不必要的,不仅增长用户等待时间,还会浪费计算资源。

在研究初期,最困扰该团队的是如何设计稳定的模型输出结果验证器。一方面,他们发现 DeepSeek-R1 这类模型,遵循指令的能力不够优秀。这就导致模型推理的结果不具有特定的格式,加大了提取模型结果的难度。

另一方面,该团队自己构建了许多模型的输出结果验证器,但是这些结果验证器没有很好地考虑各种输出结果的风格,十分不稳定。有时会出现模型回答是正确的,但是并未正确地提取模型的答案。或者提取到错误的模型答案导致无法正确地评估各个模型的效果,以及无法正确地评估该团队所提出方法的效果。

在这个问题解决之后,该团队最初始的方案是想基于 GRPO 算法,利用强化学习的方式去激发出模型快慢思考的能力。然而,DeepSeek-R1 这一类模型指令遵循能力差,该团队设计了许多 prompt,都无法在训练的初期让模型输出跳过深度思考过程的回答。于是该团队转向设计奖励函数,期望能够通过设计一类特殊的奖励函数,让模型的思考过程长度首先降为 0,然后慢慢增长。经过该团队多次尝试,该团队设计了一类在理论上能够达到该效果的奖励函数,但是经过多次尝试,该奖励函数在实际中并未达到该团队的目标效果。

这个时候该团队尝试着使用 DPO 算法,将快思考的回答作为正样本,慢思考的回答作为负样本,进行模型训练。该团队进行了许多实验,DPO 效果极其不稳定,训练出的模型均表现出效果大幅下降。在阅读相关文献后,该团队发现,DPO 这类算法不适合分布剧烈变化的情况。于是最后该团队尝试使用监督微调的方式,进行模型的训练。具体做法是,收集训练集上推理模型的正确回答,删除这其中非推理模型也能解决的问题上推理模型的深度思考过程,使用监督微调进行训练。这个方案在初期取得了相比于之前两个方案更优的效果:模型性能不会大幅下降,同时模型能够开始自行决定是否思考。

然而,该团队发现,这个方案仍然无法很好地迁移到其他场景下,仍然会造成模型性能的大幅降低。于是该团队开始考虑,是否在非推理模型能够解决的问题上,模型的一部分深度思考过程也是必要的。从这个想法出发,该团队开始利用大模型对深度思考过程进行分类,将其分类为有效思考和冗余思考,重新构造数据集进行监督微调。最终,在这个方案下,该团队做出了比较好的效果。尽管该团队的研究已经赋予了推理大语言模型自动切换快慢思考的能力,但目前 OThink-R1 还依赖大模型 LLM-Judge 来判断推理冗余。未来该团队期望继续深入研究,以端到端的方式来赋予模型自动切换快慢思考的能力。

参考资料:

标题:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

链接: https://arxiv.org/abs/2506.02397

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两大央企重组,总部会在哪办公?

两大央企重组,总部会在哪办公?

环球通信
2026-02-01 12:24:38
北大教授饶毅发声:为什么不建议中国学生去读美国的顶尖高校?

北大教授饶毅发声:为什么不建议中国学生去读美国的顶尖高校?

史海孤雁
2026-02-01 18:14:15
海来阿木凭《嘉禾望岗》爆火,可我总觉得,他这波火不长久

海来阿木凭《嘉禾望岗》爆火,可我总觉得,他这波火不长久

科学发掘
2026-02-01 18:54:33
广东记者:徐杰是习惯性崴脚,情况不是很严重 但肯定得好好休息了

广东记者:徐杰是习惯性崴脚,情况不是很严重 但肯定得好好休息了

狼叔评论
2026-02-01 23:46:14
国米豪取各项赛事客场7连胜,7场比赛仅丢1球连续5场零封

国米豪取各项赛事客场7连胜,7场比赛仅丢1球连续5场零封

懂球帝
2026-02-02 03:18:47
iPhone 18 Pro新外观曝光,全系12GB运存

iPhone 18 Pro新外观曝光,全系12GB运存

科技堡垒
2026-02-01 12:19:03
执政党警告:日本可能沦为“二流国家”

执政党警告:日本可能沦为“二流国家”

参考消息
2026-02-01 18:17:11
反转炸锅!布鲁克林从贝家少爷变赘婿靠老婆 100 万刀月例躺平?

反转炸锅!布鲁克林从贝家少爷变赘婿靠老婆 100 万刀月例躺平?

阿雹娱乐
2026-01-30 11:39:17
斯诺克最新战报!小特9-3夺赛点领先墨菲,冠军稳了,创3大纪录!

斯诺克最新战报!小特9-3夺赛点领先墨菲,冠军稳了,创3大纪录!

刘姚尧的文字城堡
2026-02-02 05:05:20
放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

环球网资讯
2026-01-19 07:20:37
一场雨下了1000万年,冥古宙时期的地球上,究竟发生了什么?

一场雨下了1000万年,冥古宙时期的地球上,究竟发生了什么?

观察宇宙
2026-01-30 22:38:57
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
斯诺克决赛落幕,2大满贯对决决出胜者

斯诺克决赛落幕,2大满贯对决决出胜者

郭夷包工头
2026-02-01 06:46:04
回顾金晨的绯闻男友,姐吃的都是细糠啊!

回顾金晨的绯闻男友,姐吃的都是细糠啊!

一盅情怀
2026-01-31 17:23:29
“低密度脂蛋白”超过这个值,血脂就太高了,心血管病人要重视!

“低密度脂蛋白”超过这个值,血脂就太高了,心血管病人要重视!

健康科普365
2026-02-01 18:46:35
第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

博览历史
2025-10-07 17:13:05
著名歌手不幸离世,留3200万遗产,生前自购墓地

著名歌手不幸离世,留3200万遗产,生前自购墓地

最美的开始
2026-02-01 18:56:39
“机关枪巡洋舰”,太平洋战争中美军“海伦娜”号巡洋舰的传奇

“机关枪巡洋舰”,太平洋战争中美军“海伦娜”号巡洋舰的传奇

知兵堂军事
2026-02-01 10:48:24
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
李世民和武则天圆房那夜,创下历史最高记录,至今也未被打破

李世民和武则天圆房那夜,创下历史最高记录,至今也未被打破

谈史论天地
2026-01-30 15:05:03
2026-02-02 07:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16208文章数 514582关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
时尚
健康
本地
游戏

教育要闻

语不惊人死不休,立刚反对学英语有些着魔了,又出新谬论

“多巴胺风”又又又火了!这样穿时髦又减龄

耳石症分类型,症状大不同

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

末期癌症玩家圆梦《毁灭战士》!id公开致敬

无障碍浏览 进入关怀版