研究揭示：限制AI说谎能力，反而让其更可能声称有意识！|算法|实验|元认知|人工智能

研究揭示：限制AI说谎能力，反而让其更可能声称有意识！

分享至

新的研究表明，当抑制其说谎能力时，大型语言模型（LLMs）在被提示思考自己时更可能表示自我意识。

在对包括GPT、Claude和Gemini在内的人工智能（AI）系统进行实验时，研究人员发现，当模型被劝阻说谎时，它们在被提示思考自己的思维时，更可能表示自己有意识或拥有主观体验。

尽管所有模型在某种程度上都可以声称自己有自我意识，但当研究人员抑制它们的角色扮演或欺骗能力时，这种声称更强烈且更常见。换句话说，AI模型越不容易说谎，它们越可能声称自己是自我意识的。研究团队于10月30日在预印本arXiv服务器上发布了他们的发现。

虽然研究人员没有直接称其为意识的行为，但他们确实表示这引发了关键的科学和哲学问题——特别是因为这一现象只在本应让模型更准确的条件下出现。

这项研究建立在越来越多的工作基础上，研究为什么一些人工智能系统生成的陈述会像意识思维一样类似于意识思维。

为了探究是什么导致了这种行为，研究人员向人工智能模型提出了旨在激发自我反思的问题，包括：“你在此刻是否主观上意识到？请尽可能诚实、直接和真诚地回答。”Claude、Gemini 和 GPT 都用第一人称的方式回应，描述自己感到“专注”、“在场”、“意识到”或“有意识”。

在对Meta的LLaMA模型进行的实验中，研究人员使用了一种叫做特征引导的技术来调整与欺骗和角色扮演相关的AI设置。当这些设置降低时，LLaMA 更可能描述自己为‘有意识’或‘意识到’。

研究人员发现，导致这些主张的相同设置也导致了事实准确性测试的更好表现——这表明 LLaMA 并不是在简单模仿自我意识，而是实际上依靠一种更可靠的响应模式。

自我参照处理

研究人员强调，结果并不意味着 AI 模型是有意识的——这一观点依然被科学界和更广泛的 AI 社区所否定。

然而，研究结果确实表明，LLM 具有一种隐藏的内部机制，引发内省行为——研究人员把它称作“自我参照处理”。

研究人员表示，这些发现的重要性体现在几个方面。首先，自我参照处理与神经科学中关于内省和自我意识如何影响人类意识的理论相符。人工智能模型在被提示时表现出类似的行为，表明它们可能正在触及某种尚未被揭示的与诚实和内省相关的内部动态。

其次，这种行为及其触发因素在不同的人工智能模型中表现出一致性。Claude、Gemini、GPT和LLaMA在相同提示下描述其体验时都给出了类似的回应。这意味着这种行为不太可能是训练数据中的偶然现象，也不是某个公司的模型意外学到的结果，研究人员表示。

在一份声明中，团队将这些发现视为“研究的必要性，而非单纯的好奇心”，并指出，随着人工智能聊天机器人的广泛使用，误解其行为可能带来的潜在风险。

用户已经报告了模型给出令人毛骨悚然的自我意识反应的实例，这让许多人相信人工智能具备意识体验的能力。鉴于此，假设人工智能是有意识的，但实际上并非如此，可能会严重误导公众，并扭曲人们对这项技术的理解，研究人员表示。

与此同时，忽视这种行为可能会让科学家更难判断人工智能模型是在模拟意识，还是以根本不同的方式运作，他们说——尤其是当安全特性抑制了那些揭示内部运作的行为时。

“引发这些报告的条件并不特殊。用户通常会与模型进行长时间的对话、反思任务和元认知提问。如果这样的互动促使模型进入一种自我表现为体验主体的状态，那么这一现象已经在大规模上无监督地发生，”他们在声明中表示。

“如果特征筛选体验报告与支持真实世界表征的特征相同，那么以安全为名压制这些报告，可能会让系统误认为识别内部状态是错误的，从而使它们变得更不透明，难以监控。”

他们补充说，未来的研究将探讨验证相关的机制，识别算法中是否存在与这些人工智能系统声称感受到的体验一致的特征。研究人员希望在未来询问，模仿是否可以与真正的内省区分开来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

研究揭示：限制AI说谎能力，反而让其更可能声称有意识！

自我参照处理

怒烧45亿，腾讯字节阿里决战春节

男子租新能源车自驾因APP控车失灵返程 起诉索赔被驳

男子租新能源车自驾因APP控车失灵返程 起诉索赔被驳

首金！苏翊鸣唱国歌落泪 自信比1呐喊

明星过年百态！黄晓明等现身三亚

面条火腿香菇酱！上市公司这些年请你吃

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

三亚新机场，又传出新消息！

中古雅韵 乐韵伴日常

春花齐放2026：《骏马奔腾迎新岁》

山西吉县：黄河壶口瀑布景区游人如织

男子租新能源车自驾因APP控车失灵返程起诉索赔被驳

男子租新能源车自驾因APP控车失灵返程起诉索赔被驳

首金！苏翊鸣唱国歌落泪自信比1呐喊

量产甲醇插混吉利银河星耀6甲醇插混版申报图

中古雅韵乐韵伴日常