网易首页 > 网易号 > 正文 申请入驻

Ubiquant团队推出通用推理模型URM:让AI像人类一样循环思考

0
分享至


这项由Ubiquant公司研究团队完成的突破性研究发表于2025年12月16日的arXiv预印本平台(编号:arXiv:2512.14693v1),论文作者包括高子天、陈林霞、肖义豪、邢贺、陶然、罗浩明、周乔伊和戴布赖恩等研究者。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

当我们解决复杂数学题时,往往需要反复思考、修正错误、重新尝试,这个循环过程正是人类智慧的体现。而现在,Ubiquant的研究团队成功让人工智能也学会了这种"反复琢磨"的思考方式,创造出了一个名为通用推理模型(Universal Reasoning Model,简称URM)的AI系统。

这个系统在目前最具挑战性的AI推理测试——ARC-AGI测试中取得了令人瞩目的成绩。如果把这个测试比作AI界的高考,那么URM在ARC-AGI 1版本中达到了53.8%的正确率,在更困难的ARC-AGI 2版本中也获得了16.0%的正确率。这些数字看起来可能不算惊人,但要知道,这些测试题目连很多聪明的人类都觉得头疼,而且URM还在数独游戏中达到了77.6%的准确率,证明了它确实具备了某种接近人类的推理能力。

研究团队深入剖析了为什么有些AI模型在复杂推理任务上表现突出,他们发现关键并不在于模型有多么复杂的架构设计,而在于一种被称为"循环归纳偏置"的机制。简单来说,就像我们做难题时会反复思考一样,这些优秀的AI模型也会对同一个问题进行多轮处理,每一轮都能让答案变得更加精确。

一、什么是通用变换器?为什么循环思考如此重要?

要理解URM的工作原理,我们首先需要了解它的基础——通用变换器(Universal Transformer)。如果把传统的AI模型比作流水线工厂,那么每个工作站点都有专门的工人负责特定任务,产品从第一个工作站依次传递到最后一个工作站完成生产。这种方式效率很高,但缺乏灵活性。

而通用变换器更像是一个熟练的工匠作坊,只有一个万能工匠,但他可以对同一件作品进行反复加工和完善。工匠会拿起一件半成品,仔细检查、修改、改进,然后再次检查这个改进后的版本,如此循环往复,直到作品达到满意的质量。这个"反复加工"的过程就是循环计算,而"万能工匠"就是参数共享机制。

研究团队通过大量实验证实了一个重要发现:那些在复杂推理任务上表现优异的AI模型,其成功的秘诀主要来自于这种循环处理机制,而不是复杂的模型架构。就像解数学题一样,关键不在于你用了多少种不同的方法,而在于你是否愿意反复检查和改进你的答案。

为了验证这个发现,研究团队设计了一个对比实验。他们比较了传统变换器和通用变换器在相同计算资源下的表现。结果显示,即使传统变换器使用了32倍的参数量,在ARC-AGI测试中的正确率也只有23.75%,而参数量少得多的通用变换器却能达到40.0%的正确率。这就像是用复杂昂贵的机器生产的产品,质量反而不如经验丰富的手工艺人精心制作的作品。

二、URM的创新:短卷积模块让思考更加细致

虽然循环处理是关键,但研究团队发现还有改进空间。他们注意到,在人类思考过程中,我们不仅会反复思考整体问题,还会特别关注细节之间的关系。比如在解决视觉推理题目时,我们会仔细观察相邻图案之间的关系,寻找局部规律。

基于这个观察,研究团队为URM增加了一个名为ConvSwiGLU的短卷积模块。如果把原来的处理方式比作用放大镜逐个检查每个部件,那么加入短卷积模块后,AI就像戴上了特殊的眼镜,能够同时看清楚相邻部件之间的微妙关系。

这个改进看似微小,但效果显著。在ARC-AGI测试中,加入短卷积模块后的模型正确率从45.3%提升到了53.8%,提升幅度相当可观。研究团队还发现,这个模块最好放置在模型的非线性处理部分,也就是说,在AI已经对信息进行初步加工之后,再让它关注局部细节关系,效果最佳。

三、截断反向传播:避免"想太多"的困扰

当AI模型进行太多轮循环思考时,就会出现一个有趣的现象,类似于人类"想太多"的情况。就像我们解题时如果反复纠结于前面的步骤,可能会影响整体的思考效率,甚至产生负面影响。

研究团队发现,当模型进行8轮循环处理时,如果让所有8轮都参与学习过程的反馈调整,效果反而不如只让后面6轮参与调整。这就像是告诉AI:"前面两轮的思考就当作热身,不用太在意对错,从第三轮开始才认真计分。"

这种被称为截断反向传播的技术,让模型在保持循环思考优势的同时,避免了过度纠结早期步骤的问题。实验结果显示,采用这种方法后,模型在ARC-AGI测试中的正确率从36.25%提升到了39.13%,证明了这种"适度放松"策略的有效性。

四、非线性能力是推理的核心

研究团队还做了一个有趣的实验,逐步削弱模型的非线性处理能力,观察推理性能的变化。结果令人印象深刻:随着非线性能力的减弱,模型的推理表现呈现出明显的下降趋势。

具体来说,当他们将高级的SwiGLU激活函数替换为简单的SiLU时,模型正确率从53.75%下降到29.75%。而当进一步简化为更基础的ReLU函数时,正确率继续下降到28.63%。最极端的情况是完全移除注意力机制中的softmax函数,这时模型几乎完全失去了推理能力,正确率跌至仅有2.00%。

这个实验揭示了一个重要真相:复杂推理任务需要强大的非线性处理能力。就像烹饪需要各种调料来创造丰富的口感一样,AI推理也需要多样化的非线性变换来处理复杂的逻辑关系。这解释了为什么URM要特别强化非线性组件,以及为什么短卷积模块能够带来显著改善。

五、优化器选择:训练效率的提升

在实际训练过程中,研究团队还比较了不同优化算法的效果。他们发现,使用名为Muon的先进优化器比传统的Adam优化器能够更快地达到相同的性能水平。在ARC-AGI 2测试中,Muon优化器只需要大约60万次训练步骤就能达到11.5%的正确率,而Adam优化器需要超过130万次步骤才能达到同样水平,训练速度几乎快了一倍。

不过有趣的是,虽然Muon优化器能让模型更快地学会推理技巧,但最终两种优化器训练出的模型性能相当。这说明优化器主要影响的是学习效率,而不是模型的最终能力上限。

六、与其他模型的全面对比

为了充分验证URM的优势,研究团队将其与目前最先进的同类模型进行了全面对比。在ARC-AGI 1测试中,URM的53.8%正确率远超TRM模型的40.0%和HRM模型的34.4%。在更具挑战性的ARC-AGI 2测试中,URM的16.0%正确率几乎是HRM的三倍,是TRM的两倍多。

这些对比不仅体现在单次尝试的正确率上,当允许模型进行多次尝试时,URM的优势更加明显。比如在ARC-AGI 1测试中,当允许1000次尝试时,URM的成功率能达到85.1%,而TRM和HRM分别只有64.4%和60.5%。这说明URM不仅在首次尝试时表现优异,而且具有更强的"举一反三"能力,能够通过多样化的尝试找到正确答案。

七、技术实现的精妙之处

URM的技术架构虽然听起来复杂,但核心思想相当直观。整个系统可以想象成一个既有固定流程又有循环改进的智能工厂。固定流程部分负责基础的信息处理,就像流水线上的标准操作。而循环改进部分则像是质检环节,会反复检查和优化产品质量。

在循环处理的每一轮中,模型都会运用注意力机制来重新审视问题的各个方面,然后通过包含短卷积的前馈网络来细化理解。这个过程会重复多次,每一次都在前一次的基础上进一步改进。最终,模型会运用自适应计算时间机制,根据问题的复杂程度自动决定需要多少轮循环处理。

短卷积模块的加入特别巧妙。它不是简单地增加模型复杂度,而是专门针对相邻信息的关系建模。研究团队通过仔细实验发现,将这个模块放在前馈网络的特定位置效果最佳,这就像在合适的时机加入合适的调料,能够显著提升整道菜的味道。

八、实际应用的广阔前景

虽然URM目前主要在学术测试中展现优势,但它的核心技术具有广阔的应用前景。循环推理机制可以应用于任何需要多步骤逻辑分析的场景,比如医疗诊断、法律推理、工程设计等领域。

在医疗诊断中,医生通常需要综合考虑患者的各种症状、检查结果和病史信息,然后反复推理得出诊断结论。URM的循环推理能力可以帮助AI系统模拟这种诊断过程,提高诊断的准确性和可靠性。

在工程设计领域,设计师经常需要在多个约束条件之间寻找平衡,反复调整设计方案直到满足所有要求。URM的这种反复优化机制正好契合这类需求,可以帮助自动化设计系统生成更优的解决方案。

研究团队特别强调,URM的优势不仅在于最终性能,还在于其参数效率。相比需要巨大参数量的大型语言模型,URM用相对较少的参数就能实现强大的推理能力,这使得它更适合在资源受限的环境中部署,比如移动设备或边缘计算场景。

归根结底,这项研究揭示了一个重要原理:在人工智能的推理任务中,"如何思考"比"知道多少"可能更加重要。URM通过模拟人类的循环思考过程,在复杂推理任务上取得了显著突破。虽然目前的测试成绩距离人类水平还有差距,但这种方法为AI推理能力的进一步提升指明了明确方向。

更重要的是,这项研究证明了一个令人鼓舞的观点:我们不一定需要更大、更复杂的模型来提升AI的智能水平,而是需要更好地理解和模拟人类思维的本质特征。当AI学会了像人类一样反复思考、注重细节、适度放松时,它就能在复杂推理任务中展现出接近甚至超越人类的能力。这为未来AI技术的发展提供了全新的思路和可能性,也让我们对真正智能的人工智能充满期待。

Q&A

Q1:通用推理模型URM与传统AI模型有什么区别?

A:URM最大的特点是采用循环思考机制,就像人类解难题时会反复思考一样。传统AI模型更像流水线,信息只处理一遍就输出结果,而URM会对同一个问题进行多轮循环处理,每一轮都能让答案更精确。这种设计让URM在复杂推理任务上表现更好,用更少的参数就能达到更高的准确率。

Q2:URM在ARC-AGI测试中的53.8%正确率意味着什么?

A:ARC-AGI被认为是目前最具挑战性的AI推理测试,连很多聪明的人类都觉得困难。URM在ARC-AGI 1中达到53.8%的正确率,远超其他先进模型,这表明它具备了接近人类水平的抽象推理能力。更重要的是,当允许多次尝试时,URM的成功率能达到85%以上,显示出强大的问题解决潜力。

Q3:URM技术能应用到哪些实际场景中?

A:URM的循环推理机制可以应用于任何需要多步骤逻辑分析的领域。比如医疗诊断中,可以帮助AI模拟医生反复分析症状的过程;在工程设计中,可以帮助系统在多个约束条件间寻找最优解;在法律推理中,可以辅助分析复杂案例。由于URM参数效率高,还特别适合在手机等移动设备上部署。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
除夕过年,很多家庭已经开始吵架了!

除夕过年,很多家庭已经开始吵架了!

黯泉
2026-02-16 21:35:48
这里面居然有不能提到的人

这里面居然有不能提到的人

尚曦读史
2026-02-14 07:05:30
两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

李云飞Afey
2026-01-20 11:43:34
日本的苦日子,还在后面

日本的苦日子,还在后面

六爷阿旦
2026-01-20 17:07:06
第15次上央视春晚,廖昌永在零点钟声敲响前“山海寻梦”

第15次上央视春晚,廖昌永在零点钟声敲响前“山海寻梦”

澎湃新闻
2026-02-17 01:28:27
你知道中国最大的资金外流通道是什么吗?

你知道中国最大的资金外流通道是什么吗?

流苏晚晴
2026-02-02 18:08:27
一场2:2验出国安弃将真实力,浙江捡到宝,邵佳一收获欣喜大发现

一场2:2验出国安弃将真实力,浙江捡到宝,邵佳一收获欣喜大发现

零度眼看球
2026-02-17 07:12:05
富士康“赌输”了!郭台铭做梦也没有想到,“制裁”会来的这么快

富士康“赌输”了!郭台铭做梦也没有想到,“制裁”会来的这么快

混沌录
2025-08-22 18:23:58
客厅里“正消失”的8个设计,时代要淘汰你,招呼都不会打一声

客厅里“正消失”的8个设计,时代要淘汰你,招呼都不会打一声

装修秀
2026-02-16 10:35:03
为什么我军在解放战争中使用纵队编制,而不是直接使用“军”呢?

为什么我军在解放战争中使用纵队编制,而不是直接使用“军”呢?

天天都是好日子
2026-02-17 07:25:34
程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

细品名人
2026-02-03 07:48:27
大年初一拜年祝福语图片,2026马年新年快乐,正月初一拜大年!

大年初一拜年祝福语图片,2026马年新年快乐,正月初一拜大年!

心灵悦读
2026-02-17 06:49:42
媒体翻车,东北女孩借道符拉迪沃斯托克回家,又鼓吹去俄旅游?

媒体翻车,东北女孩借道符拉迪沃斯托克回家,又鼓吹去俄旅游?

眼光很亮
2026-02-17 08:45:36
台州女演员李云霄亮相春晚《贺花神》,你的生日月份是哪位“花神”

台州女演员李云霄亮相春晚《贺花神》,你的生日月份是哪位“花神”

台州交通广播
2026-02-17 01:07:01
继青蒿素后第三个世界级新药:中国科学家熬了14年,终于赢了

继青蒿素后第三个世界级新药:中国科学家熬了14年,终于赢了

粤语音乐喷泉
2026-02-17 07:47:46
科技成为审美客体,春晚力图守住全民仪式感

科技成为审美客体,春晚力图守住全民仪式感

界面新闻
2026-02-17 07:31:11
最后一圈冲刺失误!刘少昂自责:只能说抱歉,是我的失败,我错了

最后一圈冲刺失误!刘少昂自责:只能说抱歉,是我的失败,我错了

风过乡
2026-02-16 21:05:12
后天除夕,别只会说“新年快乐”,送你30句祝福语,高端上档次

后天除夕,别只会说“新年快乐”,送你30句祝福语,高端上档次

餐饮新纪元
2026-02-14 00:17:32
“老年斑”的罪魁祸首被发现,45岁后尽量少去碰,老了也能不长斑

“老年斑”的罪魁祸首被发现,45岁后尽量少去碰,老了也能不长斑

垚垚分享健康
2026-01-23 09:48:38
高盛:对冲基金正以十年来最快的速度抄底亚洲市场

高盛:对冲基金正以十年来最快的速度抄底亚洲市场

财联社
2026-02-17 00:28:17
2026-02-17 09:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7288文章数 550关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

上百台四足机器人亮相春晚 展示了"托马斯360°"特技

头条要闻

上百台四足机器人亮相春晚 展示了"托马斯360°"特技

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

大年初一,这三件事很不寻常

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

健康
家居
数码
旅游
时尚

转头就晕的耳石症,能开车上班吗?

家居要闻

中古雅韵 乐韵伴日常

数码要闻

苹果visionOS 26.4开发者预览版Beta发布

旅游要闻

新春走基层 | ”冰马“奔腾迎新春

今年春天最流行的4组配色,过年穿时髦又高级!

无障碍浏览 进入关怀版