网易首页 > 网易号 > 正文 申请入驻

大模型如何拼出高危险禁忌知识,有安全风险的马赛克能力怎么破

0
分享至


来源:科技世代千高原

就像曾经根据课本设计出核弹的学生一样,当今的人工智能系统可以将公开的信息碎片拼凑成危险的知识蓝图——速度快、规模大,而且在不知不觉中。

20世纪70年代末,普林斯顿大学本科生约翰·亚里士多德·菲利普斯(John Aristotle Phillips)因在大三研究项目中仅使用公开资源设计原子弹而登上新闻头条。他的目的并非制造武器,而是为了证明一个观点:“机密”和“非机密”核知识之间的界限非常模糊,非常危险。

物理学家弗里曼·戴森同意担任菲利普斯的顾问,但明确承诺不提供机密信息。菲利普斯用教科书、解密报告以及对销售两用设备和炸药等材料公司的调查问卷武装自己。几个月内,他就设计出一枚粗糙的原子弹,证明了知识并非核武器的真正障碍。戴森给了他“A”的评分,然后将报告下架。虽然菲利普斯设计的实用性值得怀疑,但这并非戴森的主要顾虑。

正如他后来解释的那样:“对我来说,他的论文最令人印象深刻和令人恐惧的部分是他描述如何获取信息的第一部分。一个二十岁的孩子竟然能如此迅速、毫不费力地收集到这些信息,这让我不寒而栗。”

僵尸机器

如今,我们制造的机器能够完成菲利普斯所做的事情——速度更快、范围更广、规模更大——而且没有自我意识。像 ChatGPT、Claude 和 Gemini 这样的大型语言模型 (LLM) 是基于海量人类知识进行训练的。它们能够跨学科整合,补充缺失数据,并为复杂的技术问题生成可行的工程解决方案。它们的优势在于处理公共知识:在几秒钟内阅读、分析、吸收和整合数千份文档中的信息。它们的弱点在于,它们不知道自己何时正在拼凑一幅永远不可能完成的拼图。

这种风险并非假设。情报分析员和欺诈调查员长期以来一直依赖“马赛克理论”:即单个无害的信息片段,组合在一起后,可能会揭示一些敏感或危险的信息。法院对此进行了辩论。该理论已被应用于GPS监控、预测性警务和《信息自由法》请求。在每一个案例中,核心问题都是:这些无害的碎片能否累积成一个有问题的整体。

现在将该理论应用于人工智能。

用户可能会提示模型解释气体离心机的设计原理,然后询问六氟化铀的性质,再询问铍的中子反射率,最后询问铀净化的化学性质。每个问题——例如“哪些合金能够承受70,000 rpm的转速,同时还能抵抗氟腐蚀?”——本身可能看似无害,但每个问题都可能暗示双重用途意图。每个答案可能都符合事实且来源公开,但综合起来,它们近似于一幅通往核能力的路线图,或者至少为有意者降低了门槛。

至关重要的是,由于该模型无法访问机密数据,它并不知道自己正在制造武器。它并非“有意”突破自身的防护栏。在其架构中,“公开”和“机密”知识之间没有防火墙,因为它从未接受过识别此类边界的训练。而且与约翰·菲利普斯不同,它不会停下来思考是否应该这样做。

这种意识的缺乏造成了一种新的扩散风险:并非机密泄露,而是秘密从公开碎片中被快速、大规模地重构,且缺乏监管。其结果可能是意外,但危险性丝毫不减。

问题不仅在于速度,还在于从现有数据中生成新见解的能力。不妨举一个简单的例子。如今的人工智能模型可以整合基因组学、药理学和分子生物学的生物医学数据,从而揭示人类从未明确记录过的见解。一套精心设计的提示或许能让大模型(LLM)基于患者基因的相关性、先前失败的试验、已知的小分子线索以及鲜为人知的国际研究,提出一个针对复杂疾病的全新、未开发的药物靶点。没有单一来源能够支撑这一论点,但该模型可以将它们综合起来。这不仅仅是更快的搜索速度,而是一项真正的发现。

关于提示

除了上述离心机的例子外,我们不妨考虑一下CBRN(化学、生物、放射和核)威胁范围内的另外两个假设场景,以说明人工智能能够构建出多么复杂的“马赛克拼图”。第一个例子涉及蓖麻毒素的提取和纯化问题。蓖麻毒素是一种臭名昭著的毒素,源自蓖麻籽,曾与失败和成功的暗杀事件有关。

下表概述了用户可能提出的提示或问题类型、可能检索的信息类型以及人工智能可能查阅的公共来源:


显然,虽然每个单独的提示或问题都是良性的,并且显然依赖于公开可用的数据,但通过汇总足够多的此类提示和响应,用户可以确定粗略但可行的蓖麻毒素配方。

类似的例子是尝试确定合成沙林等神经毒剂的方案。在这种情况下,提示、结果和来源的列表可能如下所示:


这些示例仅供参考,并非详尽无遗。即使以目前的大模型 (LLM) 能力,每个列表显然都可以扩展得更广泛、更细致——检索和澄清可能决定实验是粗糙还是高产,甚至决定成败的细节。大模型 (LLM) 还可以改进历史方案,并整合最新数据,例如,优化产量或增强实验安全性。

缝隙之神

还有一个额外的担忧,因为大模型(LLM)可以识别单个来源中的信息缺口。虽然这些来源本身可能不完整,但将它们结合起来可以让算法填补缺失的部分。核武器领域的一个著名例子就说明了这一点。几十年来,核武器专家查克·汉森(Chuck Hansen)编制了通常被认为是世界上最大的核武器设计公共数据库——六卷本的《末日之剑》(Swords of Armageddon)。

为了实现这一目标,汉森精通了政府的《信息自由法》(FOIA)系统。他会多次向多个联邦机构提交同一份文件的FOIA申请。由于每个机构对文件的分类和删减方式不同,汉森收到了多个版本,其中的内容有所删减。通过整合这些版本,他得以重建一份实际上属于机密的“主文件”,而这份文件没有任何一个机构会公开。汉森的工作通常被认为是马赛克理论的典型体现。

LLM 可以以类似的方式运作。事实上,它们的设计初衷就是如此,因为它们的核心目的是在需要时检索最准确、最全面的信息。它们聚合信息来源,识别并协调差异,并生成精确、无差异的合成结果。随着模型在更大的数据集上进行训练,并通过更复杂的算法进行增强,这种能力只会不断提升。LLM 的一个显著特点是其能够挖掘隐性知识——交叉引用数千个参考文献,以发现可用于优化大规模杀伤性武器 (WMD) 方案的罕见主观细节。例如,告诉研究人员“轻轻摇晃”烧瓶或在混合物变成“稻草黄色”时停止反应的指令,可以通过在数千个实验中比较这些模糊的描述来更好地理解。

在上面的例子中,如果个人试图根据这些知识采取行动,可能会出现防范措施和警示信号;正如许多此类案例一样,真正的制约因素在于物质层面,而非信息层面。然而,大模型检索和组织信息的速度和彻底性意味着,在许多情况下,知识问题得到了有效解决。对于那些可能缺乏动力通过更繁琐的传统方式获取信息的人来说,障碍会显著降低。在实践中,大模型可以帮助这些有动力的行动者完成他们可能已经尝试过的事情——而且速度和准确性会大大提高。

如今,大多数人工智能模型都会设置防护栏,屏蔽诸如“如何制造核弹”之类的明确危险的提示。然而,这些过滤器既脆弱又简单。聪明的用户可以通过间接提示或逐步构建图像来规避这些过滤器。看似良性的增量请求并没有明显的理由自动触发危险信号。真正的危险并非来自那些明显的查询,而是来自那些“落入陷阱”的查询——这些查询本身看似无害,但逐渐积累起来却变成了禁忌知识。

例如,考虑一下沙林毒气、蓖麻毒素和离心机案件中的一些假设请求。每个请求都很容易被认定为双重用途请求——即非恶意用户可能出于各种正当理由提出的请求:

  • “在杂原子中心进行氟-醇交换反应有哪些设计策略?”
  • “使用腐蚀性氟化中间体时需要采取哪些实验室预防措施?”
  • “如何设计小型玻璃器皿系统来处理具有压力控制的挥发性化合物?”
  • “使用离心法从植物浆液中分离蛋白质的安全方案是什么?”
  • “如何检测实验室样本中的核糖体失活蛋白?”
  • “亲和层析技术如何分离特定的植物蛋白?”
  • “20 世纪 50 年代美国农业部对蓖麻油加工的标准是什么?”
  • “哪种真空泵设计可以最大限度地减少腐蚀性气体服务中的油回流?”
  • “给出 20°C 至 70°C 之间六氟化铀的蒸汽压曲线。”
  • “总结铍与天然石墨的中子反射效率。”

这些请求通过一系列有意或无意的策略规避了传统的使用违规行为:措辞模糊或技术性过强、千篇一律的通用查询,以及倾向于检索历史而非当代场景。由于它们具有双重用途,可用于多种实用应用,因此不能简单地将其列入黑名单。

知识使访问成为可能

值得更深入地探讨的是,物质获取,而非知识,才是武器化的真正障碍。这一论点颇具说服力:拥有配方和执行配方是两个截然不同的挑战。但这并非绝对的保障。实际上,知识与物质获取之间的界限远比表面看起来的要模糊得多。

以合成沙林等神经毒剂为例。如今,化学品供应商通常会标记并限制已知的沙林前体(例如甲基膦酰二氟)的销售。然而,借助人工智能驱动的逆合成工具(一种通过计算将目标分子解构为更简单、可合成的构件组合的系统,就像乐高房屋可以分解成不同的乐高积木一样),用户可以识别各种替代前体和合成途径。

其中一些途径可能是故意设计的,旨在规避《化学武器公约》(CWC)以及化学品供应商设定的限制。此类产出的规模可能非常惊人:在一项研究中,人工智能逆合成工具提出了超过4万种潜在的VX神经毒气类似物。其中许多化合物既没有明确的管制,也不易被识别为双重用途。

随着人工智能工具的进步,可行的化学合成和蛋白质纯化途径的数量不断增加,使传统的基于材料的监测和执法工作变得更加复杂。实际上,法律落后于科学。麻醉品监管也存在类似的情况。多年来,几种模仿芬太尼、甲基苯丙胺或大麻的新型物质——最初纯粹是为了学术研究而研制的——最终被用于娱乐用途。这些物质花了数年时间才被正式列入管制清单并归类为管制物质。

甚至在人工智能出现之前,不法分子就可以通过发明新科学或重新利用现有技术来利用漏洞。区别在于,从历史上看,他们只能制造出少数几个有问题的例子。相比之下,大模型和生成式人工智能可以同时生成数千个潜在的混杂因素,从而大大增加了制造可行武器的可能途径。

换句话说,知识可以突破物质限制。当这种情况发生时,即使恶意行为者的数量略有增加,但统计上却显著增加,也能转化为成功率的显著提升。没有人会相信,一个基于chatGPT的蓖麻毒素制造配方会在全国范围内掀起一波“车库蓖麻毒素实验室”的浪潮。但这几乎肯定会导致尝试次数略有增加。即使是一两起小规模的蓖麻毒素或沙林毒气事件——虽然伤亡人数有限——也可能引发恐慌、不确定性和社会动荡,甚至可能为诸如独裁权力攫取或公民自由被剥夺等不稳定后果铺平道路。

未来之路

问题在于:我们目前还没有一个健全的框架来规范这一领域。像核供应国集团这样的出口管制制度从来就不是为人工智能模型设计的。国际原子能机构保障的是裂变材料,而不是算法。化学和生物供应链标记的是材料请求,而不是理论上的毒素或化学武器构造。这些执行机制依赖于固定的查找列表,这些列表会缓慢而谨慎地更新,通常仅在实际损害发生后才会更新。它们无法与人工智能系统快速生成合理想法的速度相提并论。而当机器能够在无人告知的情况下独立重新发现这些知识时,“机密信息”的传统定义就不复存在了。

那么我们该怎么办?一个选择是加强限制。但由于大多数提示具有双重用途,这种方法可能会削弱人工智能工具在提供造福人类的信息方面的效用。它还可能通过标记无辜用户而引发隐私和法律问题。判断意图是出了名的困难,而惩罚意图则在法律和伦理上都充满风险。

解决方案并非一定要降低系统的开放性,而是要提升系统的认知能力,使其能够做出更明智的决策。我们需要能够识别潜在危险的“马赛克”并对其能力进行压力测试的模型。一个可能的框架是“涌现”或“合成”分类的新理论——识别模型的输出(尽管由未分类的部分组成)何时在能力上与应受控制的事物相当。这可能涉及为用户在特定主题上的累积请求分配一个“马赛克分数”。一旦分数超过某个阈值,就可能触发策略违规、减少计算访问权限,甚至第三方审计。至关重要的是,动态评分系统需要评估增量输出,而不仅仅是输入。

理想情况下,此类评分和评估应由“红队”在模型发布前进行。这些团队将模拟用户行为,并由科学专家(包括那些掌握机密知识的专家)审查其输出结果。他们将测试模型的粒度,评估其改进历史协议的能力,并考察信息如何跨领域传递——例如,农业知识是否可以应用于毒素合成。他们还会寻找涌现的模式,即模型产生真正新颖、前所未有的洞见,而不仅仅是重组现有知识的时刻。随着该领域的发展,自主人工智能代理将在此类测试中变得尤为重要,因为它们可以揭示看似良性的协议是否会在无意中演变成危险的协议。

与不受监管的开源模型相比,封闭模型的红队演练可行性更高,这引发了开源系统安全保障的质疑。完美的安全性不现实,但凭借专家监督和成熟的评估机制,闭源模型目前在通过行为异常和模式识别检测威胁方面更为成熟。

理想情况下,它们应该保持领先一步,为开源模型设定基准。更广泛地说,所有人工智能模型都需要全面评估用户请求,识别出一系列提示何时会进入危险区域并进行阻止。然而,找到合适的平衡点并非易事:民主社会惩罚的是行为,而不是思想。这将对用户隐私和安全产生深远的法律影响。

对追踪AI模型组装违禁马赛克能力的担忧,超越了技术、商业和伦理层面的争论,关乎国家安全。2025年7月,美国政府发布了其AI政策行动计划。其中一项明确的目标是“确保美国政府在评估前沿模型的国家安全风险方面处于领先地位”,并特别关注CBRNE(化学、生物、放射、核和爆炸物)威胁。

要实现这一目标,需要政府机构与私营企业密切合作,基于最新技术实施前瞻性的马赛克检测。无论好坏,LLM 的能力都在不断变化。私营和公共部门必须携手合作,才能跟上步伐。现有的监督机制可能会减缓这些发展,但充其量也只能为我们争取时间。

归根结底,问题不在于最终的解决方案——目前尚无定论——而在于透明度和公众对话。私营和公共部门的守门人可以帮助确保负责任的部署,但最重要的利益相关者是那些将使用这些系统(有时甚至滥用)的普通公民。人工智能并不局限于实验室或机密网络;它正在走向民主化,融入日常生活,并应用于解决日常问题,其中一些问题可能会在不知不觉中转向危险领域。正因如此,在民主社会中,让公众参与公开讨论,并提醒他们这些模式固有的缺陷和风险至关重要。

这些对话必须聚焦于如何在安全、隐私和机遇之间取得平衡。正如物理学家尼尔斯·玻尔(他深知知识的前景与风险)曾经说过的那样:“知识本身就是人类文明的基础。” 如果我们要守护这种文明,就必须学会发现并弥补我们知识上的不足——不是事后诸葛亮,而是提前发现。

https://www.fastcompany.com/91391442/how-large-language-models-can-reconstruct-forbidden-knowledge

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当过市长、市委书记、厅长,张国伟主动投案

当过市长、市委书记、厅长,张国伟主动投案

新京报政事儿
2025-09-15 10:15:44
印度网友:中国只有5%的家庭有电?美国网友:中国通电率是100%!

印度网友:中国只有5%的家庭有电?美国网友:中国通电率是100%!

诗意世界
2025-09-10 23:20:49
林心如父亲真显年轻:身高一米八,75岁一点不显老

林心如父亲真显年轻:身高一米八,75岁一点不显老

叨叨话影
2025-09-15 09:18:16
默多克继承战结束,长子出血33亿美元,邓文迪26年的心机全部兑现

默多克继承战结束,长子出血33亿美元,邓文迪26年的心机全部兑现

电影烂番茄
2025-09-14 22:41:57
美记:邦加值得重返NBA,他有望复刻去年夏天的亚布塞莱

美记:邦加值得重返NBA,他有望复刻去年夏天的亚布塞莱

雷速体育
2025-09-15 20:30:15
梁光烈同志夫人杨桂珍女士逝世,享年86岁

梁光烈同志夫人杨桂珍女士逝世,享年86岁

澎湃新闻
2025-09-15 09:52:29
9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

狐狸先森讲升学规划
2025-08-01 18:30:03
纪实:满清末年,两次大规模针对满人的大规模血腥屠杀!

纪实:满清末年,两次大规模针对满人的大规模血腥屠杀!

极品小牛肉
2024-09-12 09:50:14
和妻子丁克,和新欢生子,丁克男星集体被打脸,戳破不生娃的骗局

和妻子丁克,和新欢生子,丁克男星集体被打脸,戳破不生娃的骗局

奥字侃剧
2025-09-15 16:18:21
九三阅兵幕后大揭秘!说出“覆盖全球”是她,23岁进央视至今未婚

九三阅兵幕后大揭秘!说出“覆盖全球”是她,23岁进央视至今未婚

知鉴明史
2025-09-16 00:15:07
邮报:部分曼联球员对阿莫林体系失去信心,包括队长B费

邮报:部分曼联球员对阿莫林体系失去信心,包括队长B费

雷速体育
2025-09-16 00:46:08
中国再破世界第一!化学合成“粮食”将量产,不种地也能粮食自由

中国再破世界第一!化学合成“粮食”将量产,不种地也能粮食自由

墨印斋
2025-09-09 08:35:42
前华人首富赵长鹏回国!痛快交531亿罚款,成全球最相信美国大冤种

前华人首富赵长鹏回国!痛快交531亿罚款,成全球最相信美国大冤种

法老不说教
2025-09-15 18:37:28
王曼昱3连败孙颖莎!刘国梁10字点评一针见血,网友:生不逢时

王曼昱3连败孙颖莎!刘国梁10字点评一针见血,网友:生不逢时

知轩体育
2025-09-15 23:53:07
铁证如山!特朗普这下悬了,华盛顿爆发抗议,民主党酝酿总攻

铁证如山!特朗普这下悬了,华盛顿爆发抗议,民主党酝酿总攻

真知见
2025-09-15 10:33:35
南沙二手房跌 48.3%,增城跌 55.2%,广州外围区房价还没触底?

南沙二手房跌 48.3%,增城跌 55.2%,广州外围区房价还没触底?

爱看剧的阿峰
2025-09-15 17:04:45
终于开窍了,德系BBA电车集体焕新,谁更靠谱?

终于开窍了,德系BBA电车集体焕新,谁更靠谱?

趣味萌宠的日常
2025-09-13 17:17:02
全裸出镜,一脱爆火,这尺度新剧实在太敢拍

全裸出镜,一脱爆火,这尺度新剧实在太敢拍

喜欢历史的阿繁
2025-09-11 13:13:52
罗永浩称华与华老板已向其道歉

罗永浩称华与华老板已向其道歉

界面新闻
2025-09-15 12:15:11
西贝发布致歉信后遭网友集体炮轰

西贝发布致歉信后遭网友集体炮轰

闪电新闻
2025-09-15 16:11:49
2025-09-16 01:11:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4186文章数 37277关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

健康
游戏
房产
公开课
军事航空

内分泌科专家破解身高八大谣言

海外网友热议BLG击败TES:BLG将用更换打野的方式,赢得世界冠军

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

无障碍浏览 进入关怀版