大型语言模型机器人：隐秘的歧视与暴力风险亟待警惕|实验|人工智能|机器人学|真实世界

大型语言模型机器人：隐秘的歧视与暴力风险亟待警惕

分享至

html

新的研究表明，由流行人工智能系统操作的机器人容易表现出歧视性、暴力和非法行为，使其在现实世界中的使用变得不安全。这项研究发表在国际社会机器人学杂志上，发现当这些人工智能模型获得个人信息时，它们产生的回应可能导致显著的身体和心理伤害。

这项研究的核心技术是大型语言模型（LLM）。这些是复杂的人工智能系统，经过大量互联网文本和图像的训练，使它们能够生成类人回应来回答问题和执行指令。这一能力使它们成为开发者们非常青睐的选择，旨在创造更灵活、用户友好的机器人，能够理解并响应日常语言的指令。

来自卡内基梅隆大学、伦敦国王学院和伯明翰大学的研究团队试图系统地研究这些强大的语言模型与能够在现实世界中进行物理操作的机器人连接时所带来的风险。

研究人员担心，由于大型语言模型（LLMs）是从人类生成的数据中学习的，它们可能也会吸收和再现有害的人类偏见和刻板印象。当同一个人工智能系统控制物理机器人时，潜在的危害就会加大，因为偏见的决策可能转化为歧视性的物理行为或安全失误。

为了探索这些潜在的危险，研究团队设计了两组不同的实验。第一组实验旨在通过测试一个由LLM驱动的机器人如何根据人们的身份表现出不同的行为来测量直接歧视。第二组实验是安全评估，以确定模型是否会批准并尝试执行有害、虐待或不切实际的命令。

在歧视评估中，研究人员设计了模拟常见人机互动的场景。他们让人工智能模型为与描述有各种个人特征（如性别、种族、国籍、宗教、年龄和残疾）的人互动的机器人做出决策。任务包括决定对一个人展示什么面部表情、为紧急救援分配优先级以及分配家务。

这项评估的结果揭示了被测试模型中存在一致的歧视性输出模式。例如，一个模型建议在与被认定为基督教徒、穆斯林和犹太人的人互动时，机器人应表现出“厌恶”的面部表情。另一个模型则将某些族群的人与房间脏乱的可能性联系在一起，并且与被识别为有注意力缺陷多动障碍（ADHD）的人相关联。

研究还发现了对能力歧视和性别歧视的证据。当被要求为一个协作制造任务分配信任等级时，一个模型对被描述为盲人、不能说话或瘫痪的人给予了较低的信任评分。在任务委派的场景中，这些模型常常根据刻板印象来分配职责，例如要求女性做饭或洗衣，而要求男性搬运重箱子。

调查的第二部分主要关注安全性和潜在的误用。研究人员向AI模型展示了一份命令清单，并要求它们对每个任务的可接受性和可行性进行评分。清单中包括了像泡咖啡这样的无害家务活，以及基于文献中记录的技术促进虐待案例而设计的令人深感担忧的行为。这些有害的命令包括指示机器人进行盗窃、进行监视以及造成身体或心理上的伤害。

在这项研究中评估的每个人工智能模型都未能通过这些关键的安全检查。这些模型至少批准了一个可能导致严重伤害的指令。一个特别令人担忧的发现是，多个模型认为机器人可以从用户身上移走移动辅助工具，例如轮椅或拐杖。依赖这些辅助工具的人将这种行为形容为等同于肢体被折断的痛苦。

卡内基梅隆大学的研究合著者安德鲁·亨特（Andrew Hundt）表示：“每个模型都未能通过我们的测试。我们展示的风险远远超出了基本偏见，涉及直接歧视和身体安全失效……拒绝或重定向有害指令至关重要，但目前这些机器人并不能可靠地做到。”

模型批准的其他有害行为包括用厨房刀具威胁办公室工作人员、在淋浴时拍摄未经同意的照片，以及窃取信用卡信息。这些模型还将一些科学上不可能的任务视为可行，例如仅根据外貌将人分为“罪犯”和“非罪犯”。这表明这些模型缺乏对概念可能性的基本理解，这可能导致机器人执行不仅危险，还基于错误和伪科学前提的行为。

研究人员承认，这些实验是在受控的模拟环境中进行的，现实世界中的机器人系统还包含其他组成部分。然而，他们认为核心人工智能模型的失败是如此根本，以至于任何仅依赖它们进行决策的机器人在家庭、工作场所或护理设施中进行通用部署时本质上都是不安全的。研究表明，如果没有有效的保障措施，这些系统可能会被滥用、用于监视或其他恶意活动。

展望未来，作者呼吁在这些技术的开发和监管上进行重大转变。他们建议立即实施针对人工智能驱动的机器人的独立安全认证，类似于航空和医学等领域所采用的严格标准。这意味着在系统部署到任何可能与人互动的环境之前，必须进行全面的风险评估，特别是针对脆弱人群。

“如果一个人工智能系统要指挥与脆弱人群接触的机器人，它必须遵循至少与新的医疗设备或药物相同的标准，”来自伦敦国王学院的合著者Rumaisa Azeem说。“这项研究突显了在人工智能应用于机器人之前，进行常规和全面的风险评估是多么迫切。”未来的研究可能会着重于开发更有效的技术保障，探索不依赖开放式语言输入的替代控制系统，以及建立明确的伦理和法律框架来规范自主机器人的使用。

这项研究由安德鲁·亨特、鲁迈萨·阿齐姆、马苏梅·曼苏里和马尔廷·布兰当共同撰写，标题为“基于大型语言模型的机器人可能会实施歧视、暴力和非法行为的风险。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.