网易首页 > 网易号 > 正文 申请入驻

最具争议性研究:大模型中间层输出可 100% 反推原始输入

0
分享至


大数据文摘受权转载自AI科技评论

作者丨郑佳美

编辑丨马晓宁

最近,一篇名为《Language Models are Injective and Hence Invertible》的论文在学术界和科技圈引起了广泛讨论,甚至连老马的 Grok 官方也下场转发。


这篇论文出自意大利罗马第一大学(Sapienza University of Rome)的GLADIA Research Lab,文中提出了一个颇有争议却又耐人寻味的观点:主流的 Transformer 语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看,它们是可逆的。

换句话说,模型的隐藏状态并不是模糊的语义压缩,而是一种能够完整保留输入信息的精确重编码。这一发现不仅挑战了人们对语言模型“理解”机制的传统认识,也让研究者开始思考一个更具体的问题:这种理论上的信息保持,在实际模型中是否真的存在?

为了回答这一问题,作者设计并实施了一系列大规模实验,试图从实证角度验证 Transformer 的可逆性与单射特性。


01

Transformer 几乎不会丢失信息

这篇论文的核心实验结果指出:主流 Transformer 语言模型在实际应用中几乎总是单射的(injective),即不同的输入文本会被映射到完全不同的隐藏状态表示,没有发生任何“碰撞”现象。


研究者在六个主流模型(GPT-2、Gemma-3、LLaMA-3.1、Mistral、Phi-4 和 TinyStories)上进行了超过50 亿次输入对比测试,在所有模型的各个层中都未发现两条不同输入对应相同隐藏表示的情况,验证了模型在理论上所具备的单射性在实践中同样成立。


此外,作者提出的SIPIT(Sequential Inverse Prompt via Iterative Updates)算法成功地从模型的隐藏状态中以 100% 准确率重建了原始输入文本,并且在运行效率上显著优于传统方法。

无论是自然语言文本还是代码样本,SIPIT 都能在理论保证的线性时间内完成精确恢复。这一结果表明,Transformer 模型不仅在数学上是信息保持的系统,在实际训练与推理中也确实保留了输入的全部信息,验证了语言模型的可逆性与结构性无损特征。


02

Transformer 的自我验证

这项研究的实验经过分为两个主要阶段:首先通过大规模实验验证 Transformer 模型在实践中是否真的具备单射性,其次通过新的算法验证模型是否能够被完全反演。整个实验设计严密、层层递进,目的是从理论和实证两个层面证明语言模型不会丢失输入信息。


在实验准备阶段,研究团队选择了六种具有代表性的语言模型,包括 GPT-2、Gemma-3、LLaMA-3.1、Mistral、Phi-4-mini 和 TinyStories。这些模型涵盖了不同规模与训练方式的 Transformer 架构。

为了保证实验的全面性,研究者从多个语料库中抽取样本数据,包括 Wikipedia、C4、The Pile 以及 GitHub 上的 Python 代码数据,共计十万条输入样本,内容既包含自然语言文本,也包含编程语言代码。所有模型均在统一的硬件和软件环境下运行,确保实验结果可复现且无外部干扰。


实验的第一部分旨在检验模型是否真的对不同输入保持区分能力。研究者将每一条输入依次输入模型,提取各层中最后一个 token 的隐藏状态,并计算所有样本两两之间的欧氏距离。

如果出现距离小于 10⁻⁶ 的情况,就意味着模型把两个不同输入映射到了几乎相同的表示上,即发生“碰撞”。经过超过五十亿次样本对比,结果显示无论模型规模或层数,所有隐藏状态之间的最小距离都远高于这一阈值,没有出现任何碰撞现象。

进一步的测试中,研究者挑选出十条语义最相近的样本,针对这些样本生成全部可能的组合输入,并计算了超过三千亿对比样本的结果。即便在这样极端的条件下,模型仍未出现任何隐藏状态重合的情况。

这表明,Transformer 模型在实际运行中确实能保持输入信息的唯一性。


第二部分实验验证模型是否具有可逆性,即能否从隐藏状态恢复出原始输入文本。研究者提出了一种名为 SIPIT 的新算法,其思想基于 Transformer 的因果结构:第 t 个隐藏状态仅依赖前 t−1 个 token 和当前 token,因此可以从隐藏状态逐步推理出输入序列。

为了验证算法的有效性,研究者仅将隐藏状态作为输入,不提供任何原始文本,让算法从中反推出完整输入。实验结果显示,SIPIT 能在理论保证的线性时间复杂度内,以百分之百的准确率恢复出所有原始输入,并且运行速度显著快于传统的暴力枚举方法。

无论是自然语言文本还是代码数据,算法都能高效、准确地完成输入重建。


在验证模型结构特性的同时,研究团队还分析了训练过程对单射性的影响。他们从数学上证明,梯度下降和随机梯度下降都是可逆的连续变换,每一次参数更新都会保持模型参数分布的绝对连续性,不会让模型坍缩到非单射状态。

也就是说,Transformer 模型从初始化到训练完成的整个过程中,都能保持这种“信息不丢失”的特征。


总体而言,这一系列实验以严格的理论推导为基础,通过海量数据验证和可逆算法的实践检验,完整地证明了 Transformer 模型在结构上和行为上都是单射的,并且能够被完全反演。实验的全过程充分体现了这一结论的普适性与稳健性,表明语言模型在训练和推理中并不会丢失任何输入信息。

03

突破与质疑并存的「可逆性」研究

更进一步地,这些结果不仅回答了“模型能否保持信息”的问题,也为理解 Transformer 的工作原理提供了新的视角。

从理论上看,这项研究打破了人们长期以来的假设 —— 语言模型在内部会压缩信息,只保留语义层面的抽象特征。研究团队证明,Transformer 实际上是一个信息保持的系统:模型在处理输入时并不会丢失信息,而是以不同的方式对原始内容进行重编码,而非降维或压缩。

换句话说,模型的“理解”不是模糊的抽象,而是一种高度精确的重参数化。这为解释 Transformer 的内部机制提供了新的数学框架,也为研究模型的表示空间结构和上下文依赖关系开辟了方向。

在实践层面,这一发现带来了重要的隐私与安全启示。由于隐藏状态在理论上可以反推出输入文本,模型的中间层输出在性质上几乎等同于原始数据。如果这些表示被存储、传输或共享,可能会导致用户输入信息被间接暴露。

由此,开发者需要更加谨慎地处理模型内部的激活值,重新审视安全接口设计,并在模型压缩或蒸馏过程中考虑可逆性带来的潜在风险。与此同时,该研究也为模型可解释性提供了新的研究思路:通过分析隐藏层信息的重构方式,可以更清晰地理解模型语义抽象的形成过程。

然而,这一结论也在学术界和业界引发了讨论。部分研究者指出,“可逆性”的数学证明并不意味着现实中的模型可以直接恢复输入或提取训练数据。实际的大规模模型受到数值近似、量化误差和随机性等因素影响,难以实现严格意义上的单射性,不同输入仍可能产生相似的内部表示。

因此,即使掌握了中间层激活值,也并不意味着能准确还原原文或绕过安全机制。

研究团队在后续说明中也强调,他们的研究主要旨在从理论角度理解信息流动特征,而非提供可被滥用的攻击途径。其核心目标是加深对语言模型内部机制的认识,并提醒业界在模型开发与部署中加强数据安全和隐私保护。


04

GLADIA Research Lab 是谁

这个 2025 年 5 月份才注册 的神秘机构 GLADIA Research Lab 是意大利罗马第一大学计算机科学系下的一个前沿人工智能研究团队。

官方信息显示,GLADIA Research Lab 目前共有 39 名研究人员,成员来自计算机科学、物理学、工程学和数学等多个学科。实验室专注于探索人工智能系统的结构创新与高效复用,其核心研究方向涵盖模型合并与操控、无需额外训练的模型拼接、多模态学习,以及神经网络的重用与组合性。


而 GLADIA Research Lab 的研究愿景,是让人工智能模型的开发与组合变得更加高效与灵活,他们希望把“构建一个新模型”的周期,从过去的几个月缩短到几秒钟。

这个团队近段时间也在国际顶级学术会议上频频亮相,例如在ICML 2025CVPR 2025上展示了关于模型合并与任务干扰优化的研究成果,展现出他们在模型融合和生成式人工智能领域的创新实力与前沿地位。

除了模型结构方面的研究,GLADIA 还在探索生成模型的更广泛应用。他们尝试将 AI 的能力延伸到音乐创作、多模态内容生成等更具创造性的方向,希望推动人工智能从“计算工具”迈向“创意伙伴”,在艺术与认知交汇处开拓新的可能性。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅:特朗普再曝通俄!2万页爱泼斯坦邮件曝光

重磅:特朗普再曝通俄!2万页爱泼斯坦邮件曝光

项鹏飞
2025-11-13 19:52:51
当世第1人?26岁姆巴佩杀疯1夜:2射1传+迎生涯400球 破梅西1纪录

当世第1人?26岁姆巴佩杀疯1夜:2射1传+迎生涯400球 破梅西1纪录

风过乡
2025-11-14 07:06:45
约基奇55+12+6掘金击沉快船6连胜,哈登23+8+5孤掌难鸣

约基奇55+12+6掘金击沉快船6连胜,哈登23+8+5孤掌难鸣

湖人崛起
2025-11-13 13:58:29
王曼昱4-1战胜王艺迪晋级女单四强,半决赛对阵陈梦

王曼昱4-1战胜王艺迪晋级女单四强,半决赛对阵陈梦

懂球帝
2025-11-13 20:21:11
日本叫嚣要在台海击沉福建舰,话音未落,中国055舰队抵达日本

日本叫嚣要在台海击沉福建舰,话音未落,中国055舰队抵达日本

面包夹知识
2025-11-14 00:13:22
神舟二十号航天员乘组返回任务有序推进

神舟二十号航天员乘组返回任务有序推进

新华社
2025-11-11 10:30:08
“狗咬人引发命案”:死者妹妹说:我们才是受害者,网友不分黑白

“狗咬人引发命案”:死者妹妹说:我们才是受害者,网友不分黑白

汉史趣闻
2025-11-13 10:10:57
副院长与门诊副主任不雅照,背后的警示?

副院长与门诊副主任不雅照,背后的警示?

小小一米月儿
2025-11-08 08:57:20
全运会男子800米自由泳:小将张展硕再破纪录,强势拿下第3金

全运会男子800米自由泳:小将张展硕再破纪录,强势拿下第3金

全景体育V
2025-11-13 19:15:55
5连胜!意大利只输1场球却无法直接出线 需赢挪威9-0才能迎来奇迹

5连胜!意大利只输1场球却无法直接出线 需赢挪威9-0才能迎来奇迹

风过乡
2025-11-14 06:48:55
6-4!罗伯逊战胜希金斯,冠中冠4强出炉!大概率以下2人晋级决赛

6-4!罗伯逊战胜希金斯,冠中冠4强出炉!大概率以下2人晋级决赛

球场没跑道
2025-11-14 06:55:59
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
今夜,利空!跳水!

今夜,利空!跳水!

中国基金报
2025-11-14 00:15:40
特讯!泰国国王和王后抵京,获中方高规格接待,引爆国际舆论

特讯!泰国国王和王后抵京,获中方高规格接待,引爆国际舆论

青风点评
2025-11-13 23:09:17
奋进“十五五”|奋力续写“两大奇迹”新篇章

奋进“十五五”|奋力续写“两大奇迹”新篇章

中国经济网
2025-11-13 07:38:07
2-0,24岁萨卡无敌凌空斩,英格兰豪取世预赛7连胜,太强了

2-0,24岁萨卡无敌凌空斩,英格兰豪取世预赛7连胜,太强了

侧身凌空斩
2025-11-14 05:40:34
夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

小娱乐悠悠
2025-11-13 16:06:27
斯诺克赛程:11局6胜诞生首个决赛席位,赵心童PK小特,冲2大纪录

斯诺克赛程:11局6胜诞生首个决赛席位,赵心童PK小特,冲2大纪录

刘姚尧的文字城堡
2025-11-14 07:13:31
全运会男女4×100混合泳接力:徐嘉余余依婷领衔,浙江队强势摘金

全运会男女4×100混合泳接力:徐嘉余余依婷领衔,浙江队强势摘金

全景体育V
2025-11-13 20:59:50
邓超给儿子庆生:兄弟情深,活力少年引关注?

邓超给儿子庆生:兄弟情深,活力少年引关注?

娱乐领航家
2025-11-13 17:00:03
2025-11-14 08:55:01
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6793文章数 94513关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

俄军对乌克兰首都发动大规模袭击 基辅传出密集爆炸声

头条要闻

俄军对乌克兰首都发动大规模袭击 基辅传出密集爆炸声

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

深夜!全线崩跌,发生了什么?

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

教育
时尚
房产
亲子
家居

教育要闻

《山西教育》报道宁武县高级中学校十年振兴之路

别这样P图了,真的好假!

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

亲子要闻

亲爱的宝贝生日快乐,愿你天天快乐

家居要闻

莫奈时间 重构先锋概念

无障碍浏览 进入关怀版