网易首页 > 网易号 > 正文 申请入驻

Loop-ViT:AI学会「反复思考」,3.8M参数小模型追平人类平均水平

0
分享至



本工作由香港科技大学、中科院自动化所、加州大学圣克鲁斯分校的研究者们共同完成



当我们解一道复杂的数学题或观察一幅抽象图案时,大脑往往需要反复思考、逐步推演。然而,当前主流的深度学习模型却走的是「一次通过」的路线——输入数据,经过固定层数的网络,直接输出答案。

这种前馈式架构在图像分类等感知任务上表现出色,但面对需要多步推理的抽象问题时,却显得力不从心。最典型的例子就是「ARC-AGI 基准测试」——一个被认为是衡量 AI 抽象推理能力的「试金石」。

近日,来自香港科技大学、中科院自动化所、UC Santa Cruz 的研究团队提出了「Loop-ViT」,首次将循环 Transformer 引入视觉推理领域。这个仅有18M 参数的模型,在 ARC-AGI-1 基准上达到了「65.8%」的准确率,超越了参数量高达 73M 的 VARC 集成模型。更令人惊讶的是,其 3.8M 的小型版本也能达到 60.1% 的准确率,几乎追平人类平均水平(60.2%)。



  • 论文标题:LoopViT: Scaling Visual ARC with Looped Transformers
  • 论文链接:https://arxiv.org/abs/2602.02156
  • 代码开源:https://github.com/WenjieShu/LoopViT

什么是 ARC-AGI?

为什么它如此困难?

ARC-AGI(Abstraction and Reasoning Corpus)是由 Keras 之父 François Chollet 提出的抽象推理基准。与 ImageNet 等传统视觉基准不同,ARC 不考察模型识别猫狗、汽车的能力,而是测试其归纳推理能力。

每个 ARC 任务仅提供 2–4 个示例对(输入-输出网格),模型需要从这些示例中归纳出潜在规则,然后将其应用到新的测试输入上。这些规则可能涉及:

  • 对象的平移、旋转、镜像
  • 图案的重复与填充
  • 基于颜色的条件变换
  • 类似「重力」的物理模拟

人类通常能够通过观察示例、提出假设、验证修正的迭代过程来解决这些问题。然而,传统的前馈神经网络却缺乏这种「反复思考」的能力——它们的计算深度被固定绑定在网络层数上。

Loop-ViT 的核心创新



  • 循环架构:解耦计算深度与参数量

传统 Vision Transformer 的计算流程是:输入 → 第 1 层 → 第 2 层 → …… → 第 L 层 → 输出。每增加一层就意味着更多的参数,计算深度与模型容量紧密绑定。

Loop-ViT 的设计理念截然不同:重复执行同一组权重。模型的核心是一个权重共享的 Transformer 块,可以被循环执行 T 次。这意味着:

  • 计算深度可以任意扩展,而不增加参数
  • 模型被迫学习一个通用的「思考步骤」,而非任务特定的启发式规则
  • 类似于人类大脑的工作记忆被反复更新



  • 混合编码块:全局推理 + 局部更新

研究团队观察到,ARC 任务需要两种不同的处理模式:

  • 全局规则归纳:理解整体变换规律(如「所有蓝色变红色」)
  • 局部模式执行:精确的像素级操作(如「填充封闭区域」)

为此,Loop-ViT 设计了Hybrid Block,融合了:

  • 自注意力机制:捕捉全局依赖关系
  • 深度可分离卷积:处理局部空间模式
  • 动态退出:知道何时停止思考

并非所有问题都需要同样长的思考时间。简单的几何变换可能几步就能确定答案,而复杂的算法推理则需要更多迭代。

Loop-ViT 引入了基于熵的动态退出机制

  • 每次迭代后,计算预测分布的 Shannon 熵
  • 当熵值低于阈值(模型「确信」了答案),立即停止
  • 无需任何额外参数,完全基于模型的内在不确定性

实验表明,能够「早退」的样本准确率高达 83.33%,而需要完整迭代的困难样本准确率为 45.80%。这与人类的认知资源分配策略惊人地一致——简单问题快速解决,复杂问题投入更多时间。

实验结果:

小参数,大性能

在 ARC-AGI-1 基准上,Loop-ViT 的表现令人印象深刻。几个关键观察如下:



参数效率惊人:3.8M 的 Loop-ViT-Small 超越 18M 的 VARC,仅用 1/5 参数。

超越模型集成:18M 的 Loop-ViT 超越 73M 的 VARC 四模型集成。

深入理解:

模型在「思考」什么?

研究团队对 Loop-ViT 的内部机制进行了可视化分析,揭示了有趣的「涌现」行为:

预测结晶现象:随着迭代进行,模型的预测从模糊逐渐变得清晰确定。早期迭代的预测波动较大,后期则趋于稳定——就像溶液中的晶体逐渐析出。

注意力模式演化

  • 早期迭代:注意力分布广泛,模型在「扫描」整个输入,收集信息。
  • 后期迭代:注意力变得稀疏聚焦,精确对准需要操作的区域。

这种从「全局探索」到「局部执行」的转变,与人类解决视觉推理问题的策略高度相似。

结语

Loop-ViT 的成功揭示了一个重要洞见:在视觉领域,对于需要推理的任务,「思考时间」比「模型大小」更重要。

这与当前大模型领域一味追求参数规模的趋势形成鲜明对比。也许,实现真正的人工智能不仅需要更大的网络,更需要让模型学会像人一样「反复思考」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国女子双人雪橇再创历史,阿迪克尤木/赵佳颖极致发挥

中国女子双人雪橇再创历史,阿迪克尤木/赵佳颖极致发挥

北青网-北京青年报
2026-02-12 09:36:06
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

妍妍教育日记
2026-02-06 20:18:00
重磅!印度敲定300亿欧元超级军购,114架阵风重塑南亚空中格局

重磅!印度敲定300亿欧元超级军购,114架阵风重塑南亚空中格局

老马拉车莫少装
2026-02-12 21:05:00
印媒推测:虽然美国已经妥协,但是没有中国表态,印度还无法崛起

印媒推测:虽然美国已经妥协,但是没有中国表态,印度还无法崛起

纪中百大事
2026-02-12 19:46:35
已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

蓝猫说剧
2026-02-10 20:59:41
女护士董文卉被害真相曝光:凶手固然可恨,但她才是“罪魁祸首”

女护士董文卉被害真相曝光:凶手固然可恨,但她才是“罪魁祸首”

奇思妙想草叶君
2026-02-12 15:25:01
十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

北有南栀
2026-02-07 18:05:03
河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

大鱼简科
2026-02-07 16:50:52
成都首次连续25天不限行,为什么“敢”?需求在,算过账,管得细

成都首次连续25天不限行,为什么“敢”?需求在,算过账,管得细

红星新闻
2026-02-12 12:15:26
戏曲世家出身的陈刚主动投案!闫学晶刚道完歉,原主任就进去了

戏曲世家出身的陈刚主动投案!闫学晶刚道完歉,原主任就进去了

笔墨V
2026-02-12 18:40:46
喝酒上脸的人,酒量好还是差?

喝酒上脸的人,酒量好还是差?

混知
2026-02-12 14:28:54
印度飞饼师傅被认定为专家最新进展:多部门介入调查,胡锡进称没必要“上纲上线”,网友炸锅

印度飞饼师傅被认定为专家最新进展:多部门介入调查,胡锡进称没必要“上纲上线”,网友炸锅

文字里拾光
2026-02-11 16:23:33
4999 的 iPhone 16 Pro 上架了!真的狠

4999 的 iPhone 16 Pro 上架了!真的狠

花果科技
2026-02-11 19:42:36
马航370凭空消失,一位美国中情局退休特工说出真相,后来被灭口

马航370凭空消失,一位美国中情局退休特工说出真相,后来被灭口

文史达观
2024-08-10 13:53:48
美司法部长受质询大骂议员“戏精”!爱泼斯坦案受害者:公开文件行为更像恐吓我们

美司法部长受质询大骂议员“戏精”!爱泼斯坦案受害者:公开文件行为更像恐吓我们

红星新闻
2026-02-12 14:55:22
国安中超赛程曝光!前4场比赛对手都被罚分,争取3轮后负分变正

国安中超赛程曝光!前4场比赛对手都被罚分,争取3轮后负分变正

体坛鉴春秋
2026-02-12 17:32:51
志愿军2000人失踪7天,美军宣称被全歼,他们却押着300俘虏回家了

志愿军2000人失踪7天,美军宣称被全歼,他们却押着300俘虏回家了

睡前讲故事
2026-02-05 21:15:42
吸烟的人会短命吗?英国专家进行长达50年的调查,真相扎心…

吸烟的人会短命吗?英国专家进行长达50年的调查,真相扎心…

慧翔百科
2026-02-12 09:19:13
姚晨没想到,离春节不到7天,前夫凌潇肃靠着佟大为,又火了一把

姚晨没想到,离春节不到7天,前夫凌潇肃靠着佟大为,又火了一把

天天热点见闻
2026-02-12 10:42:06
2026-02-12 21:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12297文章数 142564关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

9岁抗癌小网红"米粒"离世 去世前一天喊了一夜的妈妈

头条要闻

9岁抗癌小网红"米粒"离世 去世前一天喊了一夜的妈妈

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

游戏
教育
时尚
手机
本地

Xbox第一方大作将登陆PS5!销量惨淡但XGP热度出色

教育要闻

青岛一学校被罚2.1万

“时髦小姨风”太适合过年了,谁穿谁好看!

手机要闻

iOS 26.3正式版来了!新变化汇总及更新建议

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

无障碍浏览 进入关怀版