网易首页 > 网易号 > 正文 申请入驻

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

0
分享至

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务上(例如,常识问答和小学生数学题),即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案,使得深度推理大模型在解决问题时,能够自行决定是否进行深度思考,有利于计算资源更加合理的分配,提升大模型的推理效率。

据介绍,受限于数据与算力的规模,预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么,该如何进一步提升大模型的能力?近来,以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制,通过增加测试时计算资源的投入,在多种复杂任务上取得了优异的效果。与非深度推理大模型相比,深度推理大模型通过模仿人类进行深度思考,能够更加准确地理解用户的需求,更加深入地分析用户提出的问题。

然而,目前的深度推理大模型面临严重的冗余思考问题:即使面对例如“1+1=?”这样的简单问题,深度推理大模型也需要进行长时间的思考,造成了计算资源的浪费。

实际上,人类的思考模式可以分为“根据直觉得出答案”的快思考和“进行深入分析得出答案”的慢思考。在面临一些简单的问题时,人类往往能够通过直觉直接给出答案。

受到人类思考模式的启发,该团队提出了这样一个问题:如何赋予深度推理大模型自动切换快慢思考的能力,自行决定是否需要进行深度思考,从而更加合理地利用计算资源?

针对该问题,他们提出了一种创新性解决方案。具体来说,本研究首先对非推理模型(模仿人类快思考,直接给出答案)和深度推理模型在简单任务(例如,常识问答和小学生数学题)上均成功解决的问题进行统计,收集这类问题上深度推理模型的推理思维链。通过大量比较推理思维链的异同,本研究总结出“必要推理”和“冗余推理”的多条特征,并根据此将深度推理思维链分类为必要推理和冗余推理,将冗余推理中的深度推理部分删除,构成一批混合推理思维链数据集。最后,基于该数据集对深度推理模型进行监督微调,赋予深度推理模型自动切换快慢思考的能力。

因此,本研究对实现“Test-time Scaling Law”具有十分重要的意义,其赋予了深度推理大模型自动切换快慢思考的能力,使得模型能够更加合理的分配计算资源。因此,模型能够通过内部知识直接给出一些简单问题的答案,也能够开启深度思考,细致地分析一些困难的问题。

据介绍,本次研究项目是 OPPO 与浙江大学联合攻关课题之一。受年初 DeepSeek-R1 一系列研究的启发,该团队尝试着来探索 DeepSeek-R1 模型的相关性质。如前所述,他们发现在使用 DeepSeek-R1 模型时,即使问很简单的问题,例如“1+1=?”或者“请帮我修改我的作业”之类的问题,也会生成特别长的思维链。这实际上是不必要的,不仅增长用户等待时间,还会浪费计算资源。

在研究初期,最困扰该团队的是如何设计稳定的模型输出结果验证器。一方面,他们发现 DeepSeek-R1 这类模型,遵循指令的能力不够优秀。这就导致模型推理的结果不具有特定的格式,加大了提取模型结果的难度。

另一方面,该团队自己构建了许多模型的输出结果验证器,但是这些结果验证器没有很好地考虑各种输出结果的风格,十分不稳定。有时会出现模型回答是正确的,但是并未正确地提取模型的答案。或者提取到错误的模型答案导致无法正确地评估各个模型的效果,以及无法正确地评估该团队所提出方法的效果。

在这个问题解决之后,该团队最初始的方案是想基于 GRPO 算法,利用强化学习的方式去激发出模型快慢思考的能力。然而,DeepSeek-R1 这一类模型指令遵循能力差,该团队设计了许多 prompt,都无法在训练的初期让模型输出跳过深度思考过程的回答。于是该团队转向设计奖励函数,期望能够通过设计一类特殊的奖励函数,让模型的思考过程长度首先降为 0,然后慢慢增长。经过该团队多次尝试,该团队设计了一类在理论上能够达到该效果的奖励函数,但是经过多次尝试,该奖励函数在实际中并未达到该团队的目标效果。

这个时候该团队尝试着使用 DPO 算法,将快思考的回答作为正样本,慢思考的回答作为负样本,进行模型训练。该团队进行了许多实验,DPO 效果极其不稳定,训练出的模型均表现出效果大幅下降。在阅读相关文献后,该团队发现,DPO 这类算法不适合分布剧烈变化的情况。于是最后该团队尝试使用监督微调的方式,进行模型的训练。具体做法是,收集训练集上推理模型的正确回答,删除这其中非推理模型也能解决的问题上推理模型的深度思考过程,使用监督微调进行训练。这个方案在初期取得了相比于之前两个方案更优的效果:模型性能不会大幅下降,同时模型能够开始自行决定是否思考。

然而,该团队发现,这个方案仍然无法很好地迁移到其他场景下,仍然会造成模型性能的大幅降低。于是该团队开始考虑,是否在非推理模型能够解决的问题上,模型的一部分深度思考过程也是必要的。从这个想法出发,该团队开始利用大模型对深度思考过程进行分类,将其分类为有效思考和冗余思考,重新构造数据集进行监督微调。最终,在这个方案下,该团队做出了比较好的效果。尽管该团队的研究已经赋予了推理大语言模型自动切换快慢思考的能力,但目前 OThink-R1 还依赖大模型 LLM-Judge 来判断推理冗余。未来该团队期望继续深入研究,以端到端的方式来赋予模型自动切换快慢思考的能力。

参考资料:

标题:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

链接: https://arxiv.org/abs/2506.02397

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

万象硬核本尊
2026-05-28 21:24:47
日股大跌,韩股休市

日股大跌,韩股休市

第一财经资讯
2026-06-03 08:14:45
大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

星耀国际足坛
2026-06-02 23:01:38
规培生都悄悄“不卷”了?满意度3.88,80%缺乏科研训练!退培要连五险一金都要返还!规培未来向何处去?

规培生都悄悄“不卷”了?满意度3.88,80%缺乏科研训练!退培要连五险一金都要返还!规培未来向何处去?

梅斯医学
2026-06-02 08:37:50
体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

黯泉
2026-05-20 16:13:40
2300名华人被美驱逐出境回国,回家或被关押

2300名华人被美驱逐出境回国,回家或被关押

君笙拂兮啊
2026-06-01 22:35:31
日菲私下瓜分近海,台独捧场不算完,还派船尾随骚扰大陆海警

日菲私下瓜分近海,台独捧场不算完,还派船尾随骚扰大陆海警

健身狂人
2026-06-03 07:49:20
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
1987年越南王牌飞行员越境挑衅,三枚导弹来袭,精英沦为阶下囚

1987年越南王牌飞行员越境挑衅,三枚导弹来袭,精英沦为阶下囚

唠叨说历史
2026-06-01 16:03:23
法网四强出两席!90后PK05后,德约终结者出局

法网四强出两席!90后PK05后,德约终结者出局

刘哥谈体育
2026-06-03 09:15:51
英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

李子橱
2026-05-23 11:35:10
19人名单太奇葩!后场挤进10人,内线却只留俩,郭士强怎么选?

19人名单太奇葩!后场挤进10人,内线却只留俩,郭士强怎么选?

酷侃体坛
2026-06-03 09:28:27
鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

云霄纪史观
2026-05-20 13:16:50
湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

哄动一时啊
2026-02-09 16:56:31
美国女子逛中国超市满脸疑惑,直言不敢相信:这真的算是超市吗

美国女子逛中国超市满脸疑惑,直言不敢相信:这真的算是超市吗

复转这些年
2026-05-21 18:54:44
骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

晓肂爱八卦
2026-05-23 04:51:05
钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

林轻吟
2026-05-22 07:33:52
千万不要吃“隔夜”的7种食物,剩了就扔,别拿健康开玩笑!

千万不要吃“隔夜”的7种食物,剩了就扔,别拿健康开玩笑!

牛锅巴小钒
2026-06-03 01:25:01
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
2026-06-03 11:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16783文章数 514993关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

艺术
旅游
手机
本地
公开课

艺术要闻

二十年前割麦的场景

旅游要闻

2026WTCF北京香山旅游峰会发布“北京文旅领域十大科技应用场景”

手机要闻

苹果自研相机液冷方案:誓要根治iPhone相机发烫难题

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版