Ubiquant团队推出通用推理模型URM：让AI像人类一样循环思考|原理|实验|urm|优化器

Ubiquant团队推出通用推理模型URM：让AI像人类一样循环思考

2025-12-20 21:12:41　来源: 科技行者

北京举报

分享至

这项由Ubiquant公司研究团队完成的突破性研究发表于2025年12月16日的arXiv预印本平台（编号：arXiv:2512.14693v1），论文作者包括高子天、陈林霞、肖义豪、邢贺、陶然、罗浩明、周乔伊和戴布赖恩等研究者。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

当我们解决复杂数学题时，往往需要反复思考、修正错误、重新尝试，这个循环过程正是人类智慧的体现。而现在，Ubiquant的研究团队成功让人工智能也学会了这种"反复琢磨"的思考方式，创造出了一个名为通用推理模型（Universal Reasoning Model，简称URM）的AI系统。

这个系统在目前最具挑战性的AI推理测试——ARC-AGI测试中取得了令人瞩目的成绩。如果把这个测试比作AI界的高考，那么URM在ARC-AGI 1版本中达到了53.8%的正确率，在更困难的ARC-AGI 2版本中也获得了16.0%的正确率。这些数字看起来可能不算惊人，但要知道，这些测试题目连很多聪明的人类都觉得头疼，而且URM还在数独游戏中达到了77.6%的准确率，证明了它确实具备了某种接近人类的推理能力。

研究团队深入剖析了为什么有些AI模型在复杂推理任务上表现突出，他们发现关键并不在于模型有多么复杂的架构设计，而在于一种被称为"循环归纳偏置"的机制。简单来说，就像我们做难题时会反复思考一样，这些优秀的AI模型也会对同一个问题进行多轮处理，每一轮都能让答案变得更加精确。

一、什么是通用变换器？为什么循环思考如此重要？

要理解URM的工作原理，我们首先需要了解它的基础——通用变换器（Universal Transformer）。如果把传统的AI模型比作流水线工厂，那么每个工作站点都有专门的工人负责特定任务，产品从第一个工作站依次传递到最后一个工作站完成生产。这种方式效率很高，但缺乏灵活性。

而通用变换器更像是一个熟练的工匠作坊，只有一个万能工匠，但他可以对同一件作品进行反复加工和完善。工匠会拿起一件半成品，仔细检查、修改、改进，然后再次检查这个改进后的版本，如此循环往复，直到作品达到满意的质量。这个"反复加工"的过程就是循环计算，而"万能工匠"就是参数共享机制。

研究团队通过大量实验证实了一个重要发现：那些在复杂推理任务上表现优异的AI模型，其成功的秘诀主要来自于这种循环处理机制，而不是复杂的模型架构。就像解数学题一样，关键不在于你用了多少种不同的方法，而在于你是否愿意反复检查和改进你的答案。

为了验证这个发现，研究团队设计了一个对比实验。他们比较了传统变换器和通用变换器在相同计算资源下的表现。结果显示，即使传统变换器使用了32倍的参数量，在ARC-AGI测试中的正确率也只有23.75%，而参数量少得多的通用变换器却能达到40.0%的正确率。这就像是用复杂昂贵的机器生产的产品，质量反而不如经验丰富的手工艺人精心制作的作品。

二、URM的创新：短卷积模块让思考更加细致

虽然循环处理是关键，但研究团队发现还有改进空间。他们注意到，在人类思考过程中，我们不仅会反复思考整体问题，还会特别关注细节之间的关系。比如在解决视觉推理题目时，我们会仔细观察相邻图案之间的关系，寻找局部规律。

基于这个观察，研究团队为URM增加了一个名为ConvSwiGLU的短卷积模块。如果把原来的处理方式比作用放大镜逐个检查每个部件，那么加入短卷积模块后，AI就像戴上了特殊的眼镜，能够同时看清楚相邻部件之间的微妙关系。

这个改进看似微小，但效果显著。在ARC-AGI测试中，加入短卷积模块后的模型正确率从45.3%提升到了53.8%，提升幅度相当可观。研究团队还发现，这个模块最好放置在模型的非线性处理部分，也就是说，在AI已经对信息进行初步加工之后，再让它关注局部细节关系，效果最佳。

三、截断反向传播：避免"想太多"的困扰

当AI模型进行太多轮循环思考时，就会出现一个有趣的现象，类似于人类"想太多"的情况。就像我们解题时如果反复纠结于前面的步骤，可能会影响整体的思考效率，甚至产生负面影响。

研究团队发现，当模型进行8轮循环处理时，如果让所有8轮都参与学习过程的反馈调整，效果反而不如只让后面6轮参与调整。这就像是告诉AI："前面两轮的思考就当作热身，不用太在意对错，从第三轮开始才认真计分。"

这种被称为截断反向传播的技术，让模型在保持循环思考优势的同时，避免了过度纠结早期步骤的问题。实验结果显示，采用这种方法后，模型在ARC-AGI测试中的正确率从36.25%提升到了39.13%，证明了这种"适度放松"策略的有效性。

四、非线性能力是推理的核心

研究团队还做了一个有趣的实验，逐步削弱模型的非线性处理能力，观察推理性能的变化。结果令人印象深刻：随着非线性能力的减弱，模型的推理表现呈现出明显的下降趋势。

具体来说，当他们将高级的SwiGLU激活函数替换为简单的SiLU时，模型正确率从53.75%下降到29.75%。而当进一步简化为更基础的ReLU函数时，正确率继续下降到28.63%。最极端的情况是完全移除注意力机制中的softmax函数，这时模型几乎完全失去了推理能力，正确率跌至仅有2.00%。

这个实验揭示了一个重要真相：复杂推理任务需要强大的非线性处理能力。就像烹饪需要各种调料来创造丰富的口感一样，AI推理也需要多样化的非线性变换来处理复杂的逻辑关系。这解释了为什么URM要特别强化非线性组件，以及为什么短卷积模块能够带来显著改善。

五、优化器选择：训练效率的提升

在实际训练过程中，研究团队还比较了不同优化算法的效果。他们发现，使用名为Muon的先进优化器比传统的Adam优化器能够更快地达到相同的性能水平。在ARC-AGI 2测试中，Muon优化器只需要大约60万次训练步骤就能达到11.5%的正确率，而Adam优化器需要超过130万次步骤才能达到同样水平，训练速度几乎快了一倍。

不过有趣的是，虽然Muon优化器能让模型更快地学会推理技巧，但最终两种优化器训练出的模型性能相当。这说明优化器主要影响的是学习效率，而不是模型的最终能力上限。

六、与其他模型的全面对比

为了充分验证URM的优势，研究团队将其与目前最先进的同类模型进行了全面对比。在ARC-AGI 1测试中，URM的53.8%正确率远超TRM模型的40.0%和HRM模型的34.4%。在更具挑战性的ARC-AGI 2测试中，URM的16.0%正确率几乎是HRM的三倍，是TRM的两倍多。

这些对比不仅体现在单次尝试的正确率上，当允许模型进行多次尝试时，URM的优势更加明显。比如在ARC-AGI 1测试中，当允许1000次尝试时，URM的成功率能达到85.1%，而TRM和HRM分别只有64.4%和60.5%。这说明URM不仅在首次尝试时表现优异，而且具有更强的"举一反三"能力，能够通过多样化的尝试找到正确答案。

七、技术实现的精妙之处

URM的技术架构虽然听起来复杂，但核心思想相当直观。整个系统可以想象成一个既有固定流程又有循环改进的智能工厂。固定流程部分负责基础的信息处理，就像流水线上的标准操作。而循环改进部分则像是质检环节，会反复检查和优化产品质量。

在循环处理的每一轮中，模型都会运用注意力机制来重新审视问题的各个方面，然后通过包含短卷积的前馈网络来细化理解。这个过程会重复多次，每一次都在前一次的基础上进一步改进。最终，模型会运用自适应计算时间机制，根据问题的复杂程度自动决定需要多少轮循环处理。

短卷积模块的加入特别巧妙。它不是简单地增加模型复杂度，而是专门针对相邻信息的关系建模。研究团队通过仔细实验发现，将这个模块放在前馈网络的特定位置效果最佳，这就像在合适的时机加入合适的调料，能够显著提升整道菜的味道。

八、实际应用的广阔前景

虽然URM目前主要在学术测试中展现优势，但它的核心技术具有广阔的应用前景。循环推理机制可以应用于任何需要多步骤逻辑分析的场景，比如医疗诊断、法律推理、工程设计等领域。

在医疗诊断中，医生通常需要综合考虑患者的各种症状、检查结果和病史信息，然后反复推理得出诊断结论。URM的循环推理能力可以帮助AI系统模拟这种诊断过程，提高诊断的准确性和可靠性。

在工程设计领域，设计师经常需要在多个约束条件之间寻找平衡，反复调整设计方案直到满足所有要求。URM的这种反复优化机制正好契合这类需求，可以帮助自动化设计系统生成更优的解决方案。

研究团队特别强调，URM的优势不仅在于最终性能，还在于其参数效率。相比需要巨大参数量的大型语言模型，URM用相对较少的参数就能实现强大的推理能力，这使得它更适合在资源受限的环境中部署，比如移动设备或边缘计算场景。

归根结底，这项研究揭示了一个重要原理：在人工智能的推理任务中，"如何思考"比"知道多少"可能更加重要。URM通过模拟人类的循环思考过程，在复杂推理任务上取得了显著突破。虽然目前的测试成绩距离人类水平还有差距，但这种方法为AI推理能力的进一步提升指明了明确方向。

更重要的是，这项研究证明了一个令人鼓舞的观点：我们不一定需要更大、更复杂的模型来提升AI的智能水平，而是需要更好地理解和模拟人类思维的本质特征。当AI学会了像人类一样反复思考、注重细节、适度放松时，它就能在复杂推理任务中展现出接近甚至超越人类的能力。这为未来AI技术的发展提供了全新的思路和可能性，也让我们对真正智能的人工智能充满期待。

Q&A

Q1：通用推理模型URM与传统AI模型有什么区别？

A：URM最大的特点是采用循环思考机制，就像人类解难题时会反复思考一样。传统AI模型更像流水线，信息只处理一遍就输出结果，而URM会对同一个问题进行多轮循环处理，每一轮都能让答案更精确。这种设计让URM在复杂推理任务上表现更好，用更少的参数就能达到更高的准确率。

Q2：URM在ARC-AGI测试中的53.8%正确率意味着什么？

A：ARC-AGI被认为是目前最具挑战性的AI推理测试，连很多聪明的人类都觉得困难。URM在ARC-AGI 1中达到53.8%的正确率，远超其他先进模型，这表明它具备了接近人类水平的抽象推理能力。更重要的是，当允许多次尝试时，URM的成功率能达到85%以上，显示出强大的问题解决潜力。

Q3：URM技术能应用到哪些实际场景中？

A：URM的循环推理机制可以应用于任何需要多步骤逻辑分析的领域。比如医疗诊断中，可以帮助AI模拟医生反复分析症状的过程；在工程设计中，可以帮助系统在多个约束条件间寻找最优解；在法律推理中，可以辅助分析复杂案例。由于URM参数效率高，还特别适合在手机等移动设备上部署。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.