网易首页 > 网易号 > 正文 申请入驻

最具争议性研究:大模型中间层输出可 100% 反推原始输入

0
分享至


大数据文摘受权转载自AI科技评论

作者丨郑佳美

编辑丨马晓宁

最近,一篇名为《Language Models are Injective and Hence Invertible》的论文在学术界和科技圈引起了广泛讨论,甚至连老马的 Grok 官方也下场转发。


这篇论文出自意大利罗马第一大学(Sapienza University of Rome)的GLADIA Research Lab,文中提出了一个颇有争议却又耐人寻味的观点:主流的 Transformer 语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看,它们是可逆的。

换句话说,模型的隐藏状态并不是模糊的语义压缩,而是一种能够完整保留输入信息的精确重编码。这一发现不仅挑战了人们对语言模型“理解”机制的传统认识,也让研究者开始思考一个更具体的问题:这种理论上的信息保持,在实际模型中是否真的存在?

为了回答这一问题,作者设计并实施了一系列大规模实验,试图从实证角度验证 Transformer 的可逆性与单射特性。


01

Transformer 几乎不会丢失信息

这篇论文的核心实验结果指出:主流 Transformer 语言模型在实际应用中几乎总是单射的(injective),即不同的输入文本会被映射到完全不同的隐藏状态表示,没有发生任何“碰撞”现象。


研究者在六个主流模型(GPT-2、Gemma-3、LLaMA-3.1、Mistral、Phi-4 和 TinyStories)上进行了超过50 亿次输入对比测试,在所有模型的各个层中都未发现两条不同输入对应相同隐藏表示的情况,验证了模型在理论上所具备的单射性在实践中同样成立。


此外,作者提出的SIPIT(Sequential Inverse Prompt via Iterative Updates)算法成功地从模型的隐藏状态中以 100% 准确率重建了原始输入文本,并且在运行效率上显著优于传统方法。

无论是自然语言文本还是代码样本,SIPIT 都能在理论保证的线性时间内完成精确恢复。这一结果表明,Transformer 模型不仅在数学上是信息保持的系统,在实际训练与推理中也确实保留了输入的全部信息,验证了语言模型的可逆性与结构性无损特征。


02

Transformer 的自我验证

这项研究的实验经过分为两个主要阶段:首先通过大规模实验验证 Transformer 模型在实践中是否真的具备单射性,其次通过新的算法验证模型是否能够被完全反演。整个实验设计严密、层层递进,目的是从理论和实证两个层面证明语言模型不会丢失输入信息。


在实验准备阶段,研究团队选择了六种具有代表性的语言模型,包括 GPT-2、Gemma-3、LLaMA-3.1、Mistral、Phi-4-mini 和 TinyStories。这些模型涵盖了不同规模与训练方式的 Transformer 架构。

为了保证实验的全面性,研究者从多个语料库中抽取样本数据,包括 Wikipedia、C4、The Pile 以及 GitHub 上的 Python 代码数据,共计十万条输入样本,内容既包含自然语言文本,也包含编程语言代码。所有模型均在统一的硬件和软件环境下运行,确保实验结果可复现且无外部干扰。


实验的第一部分旨在检验模型是否真的对不同输入保持区分能力。研究者将每一条输入依次输入模型,提取各层中最后一个 token 的隐藏状态,并计算所有样本两两之间的欧氏距离。

如果出现距离小于 10⁻⁶ 的情况,就意味着模型把两个不同输入映射到了几乎相同的表示上,即发生“碰撞”。经过超过五十亿次样本对比,结果显示无论模型规模或层数,所有隐藏状态之间的最小距离都远高于这一阈值,没有出现任何碰撞现象。

进一步的测试中,研究者挑选出十条语义最相近的样本,针对这些样本生成全部可能的组合输入,并计算了超过三千亿对比样本的结果。即便在这样极端的条件下,模型仍未出现任何隐藏状态重合的情况。

这表明,Transformer 模型在实际运行中确实能保持输入信息的唯一性。


第二部分实验验证模型是否具有可逆性,即能否从隐藏状态恢复出原始输入文本。研究者提出了一种名为 SIPIT 的新算法,其思想基于 Transformer 的因果结构:第 t 个隐藏状态仅依赖前 t−1 个 token 和当前 token,因此可以从隐藏状态逐步推理出输入序列。

为了验证算法的有效性,研究者仅将隐藏状态作为输入,不提供任何原始文本,让算法从中反推出完整输入。实验结果显示,SIPIT 能在理论保证的线性时间复杂度内,以百分之百的准确率恢复出所有原始输入,并且运行速度显著快于传统的暴力枚举方法。

无论是自然语言文本还是代码数据,算法都能高效、准确地完成输入重建。


在验证模型结构特性的同时,研究团队还分析了训练过程对单射性的影响。他们从数学上证明,梯度下降和随机梯度下降都是可逆的连续变换,每一次参数更新都会保持模型参数分布的绝对连续性,不会让模型坍缩到非单射状态。

也就是说,Transformer 模型从初始化到训练完成的整个过程中,都能保持这种“信息不丢失”的特征。


总体而言,这一系列实验以严格的理论推导为基础,通过海量数据验证和可逆算法的实践检验,完整地证明了 Transformer 模型在结构上和行为上都是单射的,并且能够被完全反演。实验的全过程充分体现了这一结论的普适性与稳健性,表明语言模型在训练和推理中并不会丢失任何输入信息。

03

突破与质疑并存的「可逆性」研究

更进一步地,这些结果不仅回答了“模型能否保持信息”的问题,也为理解 Transformer 的工作原理提供了新的视角。

从理论上看,这项研究打破了人们长期以来的假设 —— 语言模型在内部会压缩信息,只保留语义层面的抽象特征。研究团队证明,Transformer 实际上是一个信息保持的系统:模型在处理输入时并不会丢失信息,而是以不同的方式对原始内容进行重编码,而非降维或压缩。

换句话说,模型的“理解”不是模糊的抽象,而是一种高度精确的重参数化。这为解释 Transformer 的内部机制提供了新的数学框架,也为研究模型的表示空间结构和上下文依赖关系开辟了方向。

在实践层面,这一发现带来了重要的隐私与安全启示。由于隐藏状态在理论上可以反推出输入文本,模型的中间层输出在性质上几乎等同于原始数据。如果这些表示被存储、传输或共享,可能会导致用户输入信息被间接暴露。

由此,开发者需要更加谨慎地处理模型内部的激活值,重新审视安全接口设计,并在模型压缩或蒸馏过程中考虑可逆性带来的潜在风险。与此同时,该研究也为模型可解释性提供了新的研究思路:通过分析隐藏层信息的重构方式,可以更清晰地理解模型语义抽象的形成过程。

然而,这一结论也在学术界和业界引发了讨论。部分研究者指出,“可逆性”的数学证明并不意味着现实中的模型可以直接恢复输入或提取训练数据。实际的大规模模型受到数值近似、量化误差和随机性等因素影响,难以实现严格意义上的单射性,不同输入仍可能产生相似的内部表示。

因此,即使掌握了中间层激活值,也并不意味着能准确还原原文或绕过安全机制。

研究团队在后续说明中也强调,他们的研究主要旨在从理论角度理解信息流动特征,而非提供可被滥用的攻击途径。其核心目标是加深对语言模型内部机制的认识,并提醒业界在模型开发与部署中加强数据安全和隐私保护。


04

GLADIA Research Lab 是谁

这个 2025 年 5 月份才注册 的神秘机构 GLADIA Research Lab 是意大利罗马第一大学计算机科学系下的一个前沿人工智能研究团队。

官方信息显示,GLADIA Research Lab 目前共有 39 名研究人员,成员来自计算机科学、物理学、工程学和数学等多个学科。实验室专注于探索人工智能系统的结构创新与高效复用,其核心研究方向涵盖模型合并与操控、无需额外训练的模型拼接、多模态学习,以及神经网络的重用与组合性。


而 GLADIA Research Lab 的研究愿景,是让人工智能模型的开发与组合变得更加高效与灵活,他们希望把“构建一个新模型”的周期,从过去的几个月缩短到几秒钟。

这个团队近段时间也在国际顶级学术会议上频频亮相,例如在ICML 2025CVPR 2025上展示了关于模型合并与任务干扰优化的研究成果,展现出他们在模型融合和生成式人工智能领域的创新实力与前沿地位。

除了模型结构方面的研究,GLADIA 还在探索生成模型的更广泛应用。他们尝试将 AI 的能力延伸到音乐创作、多模态内容生成等更具创造性的方向,希望推动人工智能从“计算工具”迈向“创意伙伴”,在艺术与认知交汇处开拓新的可能性。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李平康:贺一然加盟泰山基本差不多了,玄智健基本不可能了

李平康:贺一然加盟泰山基本差不多了,玄智健基本不可能了

懂球帝
2026-01-27 22:34:52
李亚鹏被质疑私挪慈善基金!网友甩出多条证据,称房东才是慈善家

李亚鹏被质疑私挪慈善基金!网友甩出多条证据,称房东才是慈善家

古希腊掌管月桂的神
2026-01-27 10:52:41
伊朗发布击沉航母视频,一定要把林肯号劈成两半,特朗普碰上硬茬

伊朗发布击沉航母视频,一定要把林肯号劈成两半,特朗普碰上硬茬

墨兰史书
2026-01-28 04:00:03
罗马诺:那不勒斯已为霍伊伦支付600万欧租借费,进欧冠将强制买断

罗马诺:那不勒斯已为霍伊伦支付600万欧租借费,进欧冠将强制买断

懂球帝
2026-01-28 00:41:35
央视曝光军工重大泄密:间谍使用了美人计

央视曝光军工重大泄密:间谍使用了美人计

南权先生
2026-01-27 15:39:22
加拿大以“可能遭到更多剥削”为由拒绝向中国出售白鲸?外交部回应

加拿大以“可能遭到更多剥削”为由拒绝向中国出售白鲸?外交部回应

澎湃新闻
2026-01-27 16:17:12
旅日大熊猫“晓晓”“蕾蕾”28日凌晨将抵成都,保护中心:隔离一个月后,再决定与公众见面时间

旅日大熊猫“晓晓”“蕾蕾”28日凌晨将抵成都,保护中心:隔离一个月后,再决定与公众见面时间

极目新闻
2026-01-27 23:16:21
退出中国却称霸印度:铃木汽车一百年专注小型车的生存智慧

退出中国却称霸印度:铃木汽车一百年专注小型车的生存智慧

千秋文化
2026-01-25 10:26:52
打虎!包惠被查

打虎!包惠被查

新京报政事儿
2026-01-27 18:48:05
关于北京春节调休的通知!

关于北京春节调休的通知!

美丽大北京
2026-01-27 18:33:52
估值10亿欧元,百年相机巨头或被中资收购

估值10亿欧元,百年相机巨头或被中资收购

观察者网
2026-01-27 11:56:08
新官上任三把火,乌戈重用3人打脸杨鸣,最大引援被被贬为替补

新官上任三把火,乌戈重用3人打脸杨鸣,最大引援被被贬为替补

梦忆之浅
2026-01-28 07:38:17
曾领百度薪水,今写“反华”长文:Anthropic CEO 的这篇“救世宣言”我看吐了

曾领百度薪水,今写“反华”长文:Anthropic CEO 的这篇“救世宣言”我看吐了

AI范儿
2026-01-27 08:36:15
傻瓜式教程:如何部署7×24替你用电脑干活的ClawdBot

傻瓜式教程:如何部署7×24替你用电脑干活的ClawdBot

AI先锋官
2026-01-27 07:09:43
黄金交易提醒:金价再度飙升破纪录!多重危机叠加,冲刺万点大关指日可待?

黄金交易提醒:金价再度飙升破纪录!多重危机叠加,冲刺万点大关指日可待?

汇通网
2026-01-28 07:40:21
99999元!黄仁勋亲笔签名被挂二手平台,真的有人买?

99999元!黄仁勋亲笔签名被挂二手平台,真的有人买?

雷科技
2026-01-27 16:19:33
双buff叠满!陪读妈妈+女留学生四轮围猎,牢A要凉?

双buff叠满!陪读妈妈+女留学生四轮围猎,牢A要凉?

步论天下事
2026-01-26 16:22:39
卖女性玩具的大人糖都开进广州天环了

卖女性玩具的大人糖都开进广州天环了

蓝鲸新闻
2026-01-27 08:58:15
笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

火山诗话
2026-01-25 08:28:32
“理想汽车将关闭100家门店”上热搜

“理想汽车将关闭100家门店”上热搜

电动知家
2026-01-27 11:20:26
2026-01-28 08:12:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6821文章数 94528关注度
往期回顾 全部

科技要闻

Anthropic将融资200亿美元、估值3500亿美元

头条要闻

特朗普被指投下"第二次关税炸弹" 引发韩国强烈不安

头条要闻

特朗普被指投下"第二次关税炸弹" 引发韩国强烈不安

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
时尚
数码
本地
房产

教育要闻

这后劲你就等吧

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

数码要闻

苹果发布全新AirTag:249元起,覆盖范围更广/可查找性提升

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

无障碍浏览 进入关怀版