网易首页 > 网易号 > 正文 申请入驻

密歇根大学NEPA:预测游戏赋予AI类人视觉理解力

0
分享至


这项由密歇根大学的徐思翰、马子乔,纽约大学的谢赛宁、于星,以及普林斯顿大学的柴文浩、弗吉尼亚大学的陈绪威、金伟阳等研究者合作完成的研究,发表于2025年12月的arXiv预印本平台(论文编号:arXiv:2512.16922v1)。有兴趣深入了解技术细节的读者可以通过这个编号查询完整论文。

过去几年里,人工智能在理解图片方面取得了惊人进步,但这种进步往往依赖复杂的训练方法。研究团队突然意识到一个问题:为什么不能像人类学语言那样,让机器通过简单的"预测下一个"游戏来学会看懂图片呢?这个看似简单的想法,却带来了一场视觉人工智能领域的革命。

当我们看一张图片时,大脑会自然地从一个区域移动到另一个区域,预测接下来会看到什么内容。研究团队受到这种认知过程的启发,开发了一种名为NEPA(Next-Embedding Predictive Autoregression,下一嵌入预测自回归)的技术。这个技术的核心思想就像教孩子认字一样简单:给机器看图片的一部分,让它猜测下一部分会是什么样子。

整个过程可以比作拼图游戏。当你拿到一盒拼图时,通常会先找边缘部分,然后根据已经拼好的部分来预测下一块应该放在哪里。NEPA技术也是这样工作的:它把一张完整的图片切割成许多小块,就像把拼图分成若干片段,然后让机器按顺序观察这些片段,每看到一片就预测下一片应该是什么样子。

这种方法的巧妙之处在于,机器不需要重新构建整张图片的每个像素点,而是在一种叫做"嵌入空间"的抽象层面进行预测。可以把嵌入空间想象成一个翻译器,它把复杂的图像信息转换成机器更容易理解的数字表示。就像我们在心里描述一张图片时,会用"蓝色的天空"、"绿色的草地"这样的概念,而不是记住每个像素的确切颜色值。

更令人印象深刻的是,NEPA技术只需要在ImageNet-1K这个包含一百多万张图片的数据集上进行训练,就能达到令人满意的效果。这就像一个学生只需要看过一百多万张图片,就能掌握识别各种物体的能力。相比之下,以往的技术往往需要更复杂的训练过程,包括对比不同图片的相似性,或者试图重建图片的每个细节。

研究团队在实验中发现,使用NEPA技术训练的机器在ImageNet-1K图片分类任务上达到了83.8%的准确率(使用ViT-B模型)和85.3%的准确率(使用ViT-L模型)。这个成绩与目前最先进的方法相当,但训练过程却简单得多。

为了验证这种技术的通用性,研究团队还在语义分割任务上测试了NEPA技术。语义分割就像给图片中的每个像素贴标签,比如这个像素属于"天空",那个像素属于"汽车"。在ADE20K这个复杂的场景解析数据集上,NEPA技术同样表现出色,基础模型达到了48.3%的平均交并比,大型模型达到了54.0%。

NEPA技术的架构设计也体现出简约之美。它采用标准的Vision Transformer作为骨干网络,这是目前最成功的图像处理架构之一。但与其他方法不同的是,NEPA不需要额外的解码器或复杂的预测头,整个系统就像一个精简的预测引擎。

在训练过程中,研究团队采用了一种叫做"停止梯度"的技巧。这就像在学习过程中给答案加上一层保护膜,防止机器偷懒地直接复制答案,而是真正学会预测的能力。同时,他们使用因果掩码确保机器在预测下一个图片块时,只能看到之前的内容,不能偷看后面的部分,这样才能真正学会预测能力。

研究团队还在架构中融入了几个现代化的改进技巧。他们使用了旋转位置编码(RoPE)来帮助机器更好地理解图片中各个部分的空间关系,就像给拼图的每一块标注上它在整幅画中的相对位置。层级缩放(LayerScale)技术则像调节学习的步伐,确保训练过程稳定进行。SwiGLU激活函数和查询键标准化(QK-Norm)则进一步提升了模型的性能和稳定性。

当机器经过NEPA技术训练后,研究团队发现了一个有趣的现象:机器学会了像人类一样关注图片中的重要区域。通过分析注意力图,他们发现机器在预测下一个图片块时,会自动将注意力集中在语义相关的区域上。比如,当看到动物的头部时,机器会自动关注身体的其他部分;当看到建筑物的一角时,会关注建筑的整体结构。

这种行为完全是机器自发学习到的,没有人为设计。这表明NEPA技术不仅能够识别图片,还能理解图片中对象之间的关系和整体结构。更有趣的是,当研究团队分析机器预测的嵌入向量时,发现这些向量在相似物体之间表现出高度相似性,在不相关物体之间则差异明显,这说明机器真正学会了抽象的视觉概念。

从计算效率角度来看,NEPA技术也表现出明显优势。传统的对比学习方法需要在每个训练步骤中处理大量的正负样本对,而掩码重建方法需要复杂的解码器来重建图片细节。相比之下,NEPA技术只需要一次前向传播,不需要额外的解码器或复杂的采样策略,这使得整个训练过程更加高效。

研究团队还发现,NEPA技术在不同规模的模型上都表现出良好的扩展性。随着模型参数量的增加和训练时间的延长,性能持续提升,没有出现过拟合现象。这种良好的扩展特性意味着,随着计算资源的增加,NEPA技术有望达到更高的性能水平。

在实际应用中,经过NEPA预训练的模型可以很容易地适配到各种下游任务。对于图像分类任务,只需要在模型输出层添加一个简单的线性分类器。对于语义分割任务,可以连接标准的UperNet解码器。这种灵活性使得NEPA技术能够广泛应用于各种计算机视觉任务。

值得注意的是,研究团队在微调阶段发现了一个有趣的现象:虽然NEPA是用因果注意力训练的(即只能看到前面的内容),但在微调时使用双向注意力(可以看到全部内容)能够进一步提升性能。这说明自回归预训练学到的表示具有很好的泛化能力,能够适应不同的注意力模式。

当前的研究还揭示了NEPA技术的一些局限性。在线性探测实验中,NEPA的表现不如一些专门设计的表示学习方法。这是因为NEPA的输出表示非常接近原始的嵌入层特征,主要的表示能力存储在预测器部分。这种设计选择是有意为之的,因为它使得整个系统更加简洁统一。

研究团队还分析了一些失败案例,发现NEPA技术在处理包含复杂反射、阴影和遮挡的场景时仍有改进空间。在多物体重叠的复杂场景中,模型有时会产生不一致的预测。这些问题反映了当前训练数据集的局限性,也为未来的改进指明了方向。

从更宏观的角度来看,NEPA技术代表了计算机视觉领域的一个重要转变。传统的方法往往专注于学习静态的视觉表示,而NEPA技术将重点转向学习预测模型本身。这种范式转变与自然语言处理领域的发展轨迹相呼应,语言模型的成功正是基于这种生成式预训练的思想。

这种统一的预训练范式还暗示着更广阔的可能性。研究团队指出,现代大型语言模型越来越多地采用绑定嵌入的设计,即输入和输出嵌入矩阵共享参数。这种设计本质上就是在嵌入空间中进行下一个token预测,与NEPA的核心思想完全一致。这意味着,不同模态的数据可能可以在统一的框架下进行训练,为多模态人工智能的发展开辟了新的道路。

展望未来,NEPA技术还具有向生成式建模扩展的潜力。通过与合适的图像解码器或扩散模型结合,同一个自回归嵌入预测器可以用于图像生成或编辑任务。这种统一的架构能够在表示学习和生成建模之间架起桥梁,为构建更加通用的视觉智能系统提供可能。

归根结底,NEPA技术的成功证明了一个重要观点:有时候,最简单的想法往往最有效。通过回归到最基本的预测原理,研究团队创造出了一种既简单又强大的视觉学习方法。这种方法不需要复杂的工程技巧或者精巧的理论设计,只是忠实地模仿了人类视觉认知的基本过程。正如研究团队在论文中所说,他们提供的不仅仅是一个新算法,更是一种新的视角:自回归预测的简洁性,当恰当地应用于视觉领域时,能够帮助统一不同模态之间的预训练范式。这种统一性可能是人工智能向更通用智能发展的关键一步。

Q&A

Q1:NEPA技术是如何工作的?

A:NEPA技术像拼图游戏一样工作,把图片切成小块,让机器按顺序观察这些片段,每看到一片就预测下一片应该是什么样子。机器不需要重建每个像素,而是在抽象的"嵌入空间"进行预测,就像我们用概念描述图片而不是记住每个细节。

Q2:NEPA技术比其他图像识别方法有什么优势?

A:NEPA最大的优势是简单高效。它只需要一次前向传播,不需要复杂的解码器或对比学习的负样本,训练过程比传统方法简单得多。同时它在ImageNet分类上达到了83.8%到85.3%的准确率,与最先进方法相当,但架构更简洁。

Q3:NEPA技术能应用到哪些实际场景中?

A:NEPA技术可以广泛应用于各种计算机视觉任务。它已经在图像分类和语义分割任务上取得优秀表现,未来还可能扩展到图像生成和编辑领域。由于其简洁的架构设计,它可以很容易地适配到不同的应用场景中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新一代机皇!新机官宣:2月25日,正式发布!

新一代机皇!新机官宣:2月25日,正式发布!

科技堡垒
2026-02-08 11:48:34
拿完国内一万退休金,再去澳洲领两千周薪?这种便宜还能占多久?

拿完国内一万退休金,再去澳洲领两千周薪?这种便宜还能占多久?

冷峻视角下的世界
2026-02-10 03:28:05
外媒:澳大利亚悉尼、墨尔本等多地爆发示威活动,数千人集会抗议以色列总统到访

外媒:澳大利亚悉尼、墨尔本等多地爆发示威活动,数千人集会抗议以色列总统到访

环球网资讯
2026-02-09 21:53:09
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
高市早苗表态:着手推动修宪

高市早苗表态:着手推动修宪

大风新闻
2026-02-09 20:01:19
巴拿马急刹车:24小时改口保港口,中方反制有多狠?

巴拿马急刹车:24小时改口保港口,中方反制有多狠?

老谢谈史
2026-02-09 14:53:19
美国这两天发生的事,彻底击溃了中国人的心理防线

美国这两天发生的事,彻底击溃了中国人的心理防线

深度报
2026-02-09 22:54:30
07国青或迎来久违强援助阵,天赋不比王钰栋差,未来有望挑大梁

07国青或迎来久违强援助阵,天赋不比王钰栋差,未来有望挑大梁

懂个球
2026-02-10 00:10:11
孙铭徽伤情出炉:遭遇距腓前韧带撕裂 恐伤停2-3个月影响卫冕

孙铭徽伤情出炉:遭遇距腓前韧带撕裂 恐伤停2-3个月影响卫冕

醉卧浮生
2026-02-09 22:30:19
“亚洲人不在乎规则!”新西兰海边钓鱼冲突升级,华人罕见反击

“亚洲人不在乎规则!”新西兰海边钓鱼冲突升级,华人罕见反击

发现新西兰
2026-02-09 11:35:19
AI应用:利欧股份、三六零、岩山科技、华胜天成,谁的潜力更大

AI应用:利欧股份、三六零、岩山科技、华胜天成,谁的潜力更大

呼呼历史论
2026-02-10 03:39:57
扫地出门!利物浦主帅有望火速下课,新主帅浮现!追逐1.45亿强援

扫地出门!利物浦主帅有望火速下课,新主帅浮现!追逐1.45亿强援

头狼追球
2026-02-09 11:13:24
清仓中国满仓日本,巴菲特算准了美日国运,唯独算漏了一件事

清仓中国满仓日本,巴菲特算准了美日国运,唯独算漏了一件事

慕名而来只为你
2026-02-07 12:03:00
8场进14球!中国足球16岁1米92新星闪耀:国产克劳奇过人美如画

8场进14球!中国足球16岁1米92新星闪耀:国产克劳奇过人美如画

李喜林篮球绝杀
2026-02-09 13:10:34
创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾:姥爷,我做到了

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾:姥爷,我做到了

我爱英超
2026-02-09 06:50:10
上海交大解剖260名脑梗死者,惊讶发现:患脑梗的人,有5大共性

上海交大解剖260名脑梗死者,惊讶发现:患脑梗的人,有5大共性

刘哥谈体育
2026-02-08 10:27:55
36岁龙洋辞别央视!新身份曝光,人生彻底转向

36岁龙洋辞别央视!新身份曝光,人生彻底转向

草莓解说体育
2026-02-10 00:27:58
1亿巨星陨落:11场0进球,西蒙尼气炸了:主场惨遭复仇

1亿巨星陨落:11场0进球,西蒙尼气炸了:主场惨遭复仇

足球狗说
2026-02-09 07:31:23
萝莉岛最新照片:办公桌下趴着白色“三点式”的女郎,脚底板很脏

萝莉岛最新照片:办公桌下趴着白色“三点式”的女郎,脚底板很脏

魔都姐姐杂谈
2026-02-09 09:33:15
北大才女李天乐:赴美留学,入职顶尖药企,用金属铊毒杀清华丈夫

北大才女李天乐:赴美留学,入职顶尖药企,用金属铊毒杀清华丈夫

谈史论天地
2026-02-07 08:20:07
2026-02-10 06:56:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7199文章数 550关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

手机
房产
游戏
亲子
时尚

手机要闻

红米放大招:K90 Ultra配风扇+BOSE音效,平板电池9000mAh!

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童”"/> 主站 商城 论坛 自运营 登录 注册 推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童” ...

亲子要闻

越讨厌跑得越远

冬季穿衣越简单越实用!从这些日常穿搭中收获灵感,大方又自然

无障碍浏览 进入关怀版