网易首页 > 网易号 > 正文 申请入驻

推理模型新路线开源!与DeepSeek截然不同,抛弃思维链

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

开源推理大模型新架构来了,采用与Deepseek-R1/OpenAI o1截然不同的路线

抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

例如问题:Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。她在4周内会吃多少个鸡蛋?

从新模型Huginn的思考轨迹可视化中,可以看到对数字3等重要token不断旋转,最终收敛到正确答案对应的位置,但在不关键的人物名字Cla-ire上没有这个现象。

除旋转之外还能观察到更多丰富的几何模式,研究团队认为这表明该模型正在独立学习利用潜空间的高维性质以新的方式做推理

由于不使用长思维链推理范式,新方法还有几个额外优势:

  • 不需要任何专门的训练数据
  • 可以在很小的上下文窗口下工作
  • 能捕捉到难以用语言表达的推理类型

研究来自马克思普朗克研究所、马里兰大学等团队,他们使用美国橡树岭实验室的Frontier超算完成训练实验,用到8个AMD GPU节点(4096块GPU),没有使用英伟达体系。

新架构给Transformer加入循环模块

新架构仍然围绕Decoder-only的Transformer block构建,但分为三段:

  • Prelude(前奏):使用多个transformer层将输入数据嵌入到潜空间中
  • Recurrent Block(循环块):循环计算单元,在潜在空间中修改状态
  • Coda(尾声):从潜空间解码,并包含模型的预测头

在训练期间为每个输入序列分配随机数量的迭代次数。同时为了在训练时保持较低的计算和内存,只反向传播循环单元的最后k次迭代。

研究中可视化了模型在潜在空间中的推理轨迹,发现了这些有趣现象:

  • 对一些简单token,模型的隐状态会快速收敛到稳定点
  • 但对一些关键token,如数学问题中的数字”3”,隐状态会形成复杂的圆形轨道
  • 还有一些token的隐状态会沿特定方向”滑动”,可能用于计数循环次数

论文一作Jonas Geiping透露,他们的算力只够一次大规模训练,也就是最后发布的3.5B参数的Huginn模型,在800B tokens数据上预训练。

没有post/mid-training过程,但可以与7B参数、在2-3T tokens数据上训练的开源模型能力相匹配。

另外算上循环模块中的计算,3.5B参数的模型训练时的计算量相当于传统的32B模型。

有人猜测OpenAI o3使用了类似的方法,通过循环来达到近似无限上下文,并且控制高中低三种推理时间设置。

有OpenAI研究员已经注意到这个工作,把论文读完了还在线捉bug。

也已经有人准备根据DeepSeek-R1开源的方法尝试新思路,同时保留潜空间思考的推理能力,和CoT思考的可读性。

论文:
https://arxiv.org/abs/2502.05171
模型:
https://huggingface.co/tomg-group-umd/huginn-0125
代码:
https://github.com/seal-rg/recurrent-pretraining

参考链接:
[1]https://x.com/tomgoldsteincs/status/1888980680790393085
[2]https://x.com/jonasgeiping/status/1888985929727037514

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正式退出,林诗栋发声,官宣决定,原因曝光,王励勤难辞其咎

正式退出,林诗栋发声,官宣决定,原因曝光,王励勤难辞其咎

懂球社
2026-03-26 14:25:39
40分钟连挨4轮导弹!以色列遭美国背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭美国背叛?中方:支持巴勒斯坦建国

小涛叨叨
2026-03-26 14:11:51
孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

清茶浅谈
2025-09-07 23:32:29
东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

懂球帝
2026-03-26 11:45:09
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

混沌录
2026-03-20 21:00:04
消息人士:若美国打通霍尔木兹海峡,伊朗或在曼德海峡开辟新战线

消息人士:若美国打通霍尔木兹海峡,伊朗或在曼德海峡开辟新战线

极目新闻
2026-03-26 10:13:04
山东男篮3连胜杀到第4!下轮赢球真能冲进前三?

山东男篮3连胜杀到第4!下轮赢球真能冲进前三?

有态度的体育小白
2026-03-26 15:11:15
美国隐瞒战死人数!美军炸了锅:不想为以色列而死

美国隐瞒战死人数!美军炸了锅:不想为以色列而死

涵豆说娱
2026-03-25 10:17:17
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
家长违停孩子开门杀撞人后逃逸?交警回应

家长违停孩子开门杀撞人后逃逸?交警回应

中国新闻周刊
2026-03-26 14:46:51
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

阿凫爱吐槽
2026-03-25 18:57:39
3 国遭殃?以军炸伊朗化工厂,却忘自家死海藏着致命毒库!

3 国遭殃?以军炸伊朗化工厂,却忘自家死海藏着致命毒库!

眼界看视野
2026-03-25 17:45:55
特朗普旧招重演,美国突然大规模增兵,第二个马杜罗即将到来?

特朗普旧招重演,美国突然大规模增兵,第二个马杜罗即将到来?

古史青云啊
2026-03-26 14:47:33
加拿大空军试射AIM-120D3型中程空空导弹

加拿大空军试射AIM-120D3型中程空空导弹

看航空
2026-03-26 15:37:02
太突然!董事长汤建,因心梗意外去世

太突然!董事长汤建,因心梗意外去世

每日经济新闻
2026-03-25 18:21:26
闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

侃神评故事
2026-03-21 19:15:03
53票反对47票赞成!美国投票结果出来了,特朗普接连宣布3件事

53票反对47票赞成!美国投票结果出来了,特朗普接连宣布3件事

潋滟晴方DAY
2026-03-26 15:04:53
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
2026-03-26 16:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12347文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
游戏
家居
时尚
本地

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版