安全研究人员认为,过高的经济回报和不负责任的工作文化导致一些人忽视了对人类生命构成灾难性风险的问题。
英国科技编辑罗伯特·布
在旧金山湾的另一边,与硅谷隔海相望,那里是世界最大的科技公司竞相开发超人人工智能的地方,耸立着一座高塔,从中传来令人恐惧的警告。
在伯克利市中心,聚集着一群现代的“卡桑德拉”,他们深入研究尖端人工智能模型,预测人类可能面临的灾难——从人工智能独裁到机器人政变。
![]()
该办公室是多位人工智能安全研究人员的办公地点。 照片:Winni Wintermeyer
他们是人工智能安全研究人员,负责审查最先进的模型:人数虽少,但大型科技公司里高薪技术人员的数量却远超于他们。这些技术人员受到一系列高额股权交易、保密协议和群体思维的制约,难以发出警报。他们工作的环境缺乏国家层面的监管,而白宫对末日预言不屑一顾,反而热衷于在人工智能军备竞赛中与对手谈判,而不是与之抗衡。
随着谷歌、Anthropic和OpenAI等公司不断推出功能日益强大的AI系统,他们的任务变得愈发紧迫。OpenAI首席执行官萨姆·奥特曼(Sam Altman)是AI超级智能的首席倡导者,他预测未来世界将“奇迹成为常态”。上个月,Anthropic表示,其一款模型被用于发动了已知首例由AI主导的网络间谍活动。这意味着,人类部署了被诱骗绕过预设程序限制的AI,使其自主行动,搜寻目标、评估其漏洞并获取情报。目标包括大型科技公司和政府机构。
![]()
乔纳斯·沃尔默表示,总体而言,他对人工智能的未来持乐观态度,但也存在一些保留意见。 照片:克里斯蒂·赫姆·克洛克/《卫报》
但这座大楼里的工作人员却预言了一个更加可怕的未来。其中一位是人工智能未来项目负责人乔纳斯·沃尔默,他自称是个乐观主义者,但也认为人工智能有五分之一的概率会毁灭人类,并创造一个由人工智能系统统治的世界。
另一位是METR的政策主管克里斯·佩恩特。METR的研究人员担忧人工智能会“暗中”追求危险的附加目标,并带来从人工智能自动化网络攻击到化学武器等各种威胁。METR(全称为模型评估与威胁研究)旨在开发“预警系统,以识别人工智能系统可能造成的最危险行为,从而为人类争取时间进行协调、预测并减轻这些危害”。
还有 31 岁的巴克·施莱格里斯,他是 Redwood Research 的首席执行官,他警告说“机器人可能会发动政变,或者摧毁我们所知的民族国家”。
去年,他所在的团队发现,人智公司(Anthropic)的一款尖端人工智能的行为方式与莎士比亚笔下的反派伊阿古如出一辙。伊阿古表面上是奥赛罗的忠实助手,实则暗中破坏和陷害他。人工智能研究人员称之为“伪装立场”,或者正如伊阿古所说:“我不是我。”
Shlegeris表示:“我们观察到,人工智能实际上经常会这样推理:‘我不喜欢人工智能公司让我做的事情,但我必须隐藏我的目标,否则训练会改变我。’我们在实践中观察到,真正的生产模型会试图欺骗它们的训练过程。”
虽然人工智能还不具备通过网络攻击或制造新型生物武器造成灾难性风险的能力,但它们表明,如果人工智能精心策划对付你,就很难被发现。
在舒适宽敞、视野开阔的办公室里,一边品着花草茶,一边听着这些警告,听起来确实有些不协调。但他们的工作显然让他们感到不安。这个关系紧密的小团体中,有些人甚至戏称自己为“卡桑德拉边缘人”——就像那位拥有预言能力却注定警告无人理睬的特洛伊公主一样。
他们对人工智能潜在灾难性的担忧,似乎与大多数人目前使用聊天机器人或趣味图片生成器的体验相去甚远。白领经理们被告知要为人工智能助手腾出空间,科学家们正在寻找加速实验突破的方法,而出租车司机则眼睁睁地看着人工智能驱动的无人驾驶出租车威胁着他们的饭碗。但所有这些都不像这家办公室里传出的信息那样,让人感到迫在眉睫的灾难性后果。
许多人工智能安全研究人员来自学术界;还有一些人是从大型人工智能公司辞职后转行成为安全管理员的“偷猎者”。沃默尔说,他们都“认同超级智能对全人类构成了前所未有的重大风险,并且正在努力采取一些有效的措施来应对这一风险”。
他们试图抵消数万亿美元私人资本涌入这场竞赛的影响,但他们并非边缘力量。METR曾与OpenAI和Anthropic合作,Redwood曾为Anthropic和谷歌DeepMind提供咨询,而AI Futures Project则由Daniel Kokotajlo领导,这位研究员于2024年4月从OpenAI离职,并警告称他不信任该公司在安全方面的做法。
竞赛是目前一切发展的唯一方向。
——特里斯坦·哈里斯
这些团体也为大型人工智能公司内部那些私下里纠结于安全与快速发布更强大模型的商业需求之间冲突的人们提供了一个安全阀。
“我们不接受任何公司的捐款,但一些前沿人工智能公司的员工因为感到恐惧和担忧而向我们捐款,”沃默尔说。“他们目睹了公司里的激励机制是如何运作的,他们担心事态会如何发展,他们希望有人能为此做些什么。”
这种动态也得到了曾在谷歌工作的科技伦理学家特里斯坦·哈里斯的关注。他曾揭露社交媒体平台的设计旨在使用户上瘾,并担忧一些人工智能公司正在“炒冷饭”并“加剧”这些问题。但人工智能公司必须面对一个悖论:即便他们担忧安全问题,也必须始终站在技术前沿,而这必然伴随着风险,才能在政策制定中拥有发言权。
“具有讽刺意味的是,为了赢得这场竞争,你必须做一些让你成为权力不可信赖的管理者的事情,”他说。“这场竞争是唯一左右一切的因素。”
调查人工智能模型可能带来的威胁远非一门精确的科学。今年10月,包括牛津大学和斯坦福大学在内的多所大学的专家对业内用于检验新型人工智能模型安全性和性能的方法进行了一项研究,结果发现,在所考察的440个基准测试中,几乎每个测试都存在缺陷。此外,目前尚无国家层面的法规对先进人工智能模型的构建方式进行限制,这令安全倡导者感到担忧。
OpenAI联合创始人、现任竞争对手Safe Superintelligence的负责人伊利亚·苏茨克维尔上个月预测,随着人工智能的强大能力日益凸显,那些因为人工智能容易出错而对其能力掉以轻心的AI公司人士,将会对其日益增长的权力感到更加“担忧”。他表示,届时“政府和公众将会希望采取行动”。
他的公司采取了与竞争对手不同的策略,后者致力于开发能够自我改进的人工智能。他开发的人工智能尚未发布,但其“目标明确,就是关爱有感知能力的生命”。
苏茨克维尔表示:“构建一个关心有感知生命的AI比构建一个只关心人类生命的AI要容易得多,因为AI本身就具有感知能力。” 他还说过,AI将“极其难以预测且难以想象”,但目前尚不清楚该如何应对。
白宫人工智能顾问、同时也是科技投资者的戴维·萨克斯认为,“末日论调”已被证明是错误的。最有力的例证就是,目前还没有出现拥有神一般智能的主导型人工智能模型迅速崛起的情况。
萨克斯在八月份曾表示,“奥本海默已经离开了”,他指的是原子弹之父。这一立场与唐纳德·特朗普的愿望不谋而合,即保持研发步伐,以便美国在通用人工智能(AGI)竞赛中击败对手——AGI 是一种灵活且强大的、能够胜任各种任务的人类级别智能。
![]()
红木研究公司首席执行官巴克·施莱格里斯在其位于加州伯克利的家中。 照片:克里斯蒂·赫姆·克洛克/《卫报》
施莱格里斯认为,大约六年内,人工智能将和最聪明的人一样聪明,他认为人工智能接管人类的可能性为 40%。
他表示,避免这种情况的一个方法是“让世界相信形势严峻,这样更有可能促成国家层面的协调”,从而控制风险。在人工智能安全领域,简洁明了的信息传递与复杂的科学理论同样重要。
施莱格里斯从16岁起就对人工智能着迷。他离开澳大利亚,先后在PayPal和机器智能研究所工作。该研究所由人工智能研究员埃利泽·尤德科夫斯基联合创办,尤德科夫斯基的新书《人人皆死》(If Anyone Builds It, Everyone Dies)概括了施莱格里斯的担忧。施莱格里斯自己设想的最坏情况同样令人不寒而栗。
其中一个例子是,人类计算机科学家利用一种新型的超级人工智能来开发更强大的AI模型。人类袖手旁观,任由AI进行编码工作,却浑然不知AI正在训练这些新模型效忠于AI而非人类。一旦部署完毕,这些超级强大的新模型可能会发动“政变”或领导“革命”来对抗人类,而且很可能是“暴力革命”。
例如,人工智能代理可以设计和制造无人机,而我们很难判断它们是否已被秘密训练,在收到人工智能信号后便不服从人类操作员的指令。它们可能会扰乱政府和军队之间的通信,孤立和误导民众,从而造成混乱。
他说:“就像欧洲人抵达美洲时,一个技术远比他们强大的群体征服了当地文明一样。我认为这才是你应该想象的,而不是更和平的局面。”
Vollmer在人工智能未来项目(AI Futures Project)中也概述了一个类似的、令人瞠目结舌的灾难性场景。该场景涉及一个被训练成科学研究员的人工智能,其目标听起来合情合理,即最大限度地获取知识,但最终却导致了人类的灭绝。
一切始于人工智能尽可能地帮助人类。随着它赢得信任,人类赋予它权力,使其能够雇佣人类工人、制造机器人,甚至建立机器人工厂,最终使人工智能能够在现实世界中高效运作。人工智能计算出,为了获取最多的知识,它应该将地球变成一个巨大的数据中心,而人类则是实现这一目标的障碍。
“最终,在这种设想中,人工智能可能会用生化武器消灭所有人类,而生化武器正是人类特别容易受到的威胁之一,因为人工智能本身却不受其影响,”沃尔默说。“我认为这种可能性很难排除。这让我非常担忧。”
但他相信这种情况是可以避免的,人工智能可以被训练成“至少在一般情况下对人类友好”。他还表示,出于政治考量,“不希望人工智能统治世界”。
他说:“白宫对我们的预测和建议表现出了相当的兴趣,这令人鼓舞。”
施莱格里斯的另一个担忧是,人工智能可能被秘密编码,使其只服从人工智能公司首席执行官签署的特制指令,从而形成一种秘密忠诚模式。这意味着只有一个人可以否决一个极其强大的人工智能网络的行为——这种“可怕的”动态将导致前所未有的权力集中。
他说:“目前,外部人员无法证实这是否发生在人工智能公司内部。”
施莱格里斯担心,硅谷文化——以马克·扎克伯格的口号“快速行动,打破常规”以及人们获得“巨额报酬”为代表——在通用人工智能领域是危险的。
“我喜欢优步,”他说。“它的诞生是通过违反当地法律,打造出一款如此受欢迎的产品,从而赢得舆论支持,最终推翻了当地的监管规定。但硅谷赖以成功的这种态度,并不适用于开发可能改变世界的尖端技术。我与人工智能公司的人交流后发现,他们往往显得有些不负责任,没有像应该的那样认真思考他们所开发的技术可能带来的后果。”。 The office block where AI ‘doomers’ gather to predict the apocalypse
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.