正文:
每周有120万到300万ChatGPT用户表现出精神病、躁狂、自杀计划或对模型产生不健康情感依赖的迹象。仅自杀计划这一项就占下限数字。上限则涵盖了OpenAI标记的全部三类问题,该公司并未说明这些类别是否互斥。
![]()
这些数据来自OpenAI自身。没有独立审计,没有时间序列,没有披露的方法论。我们不知道真实数字是否更高,是否在增长,也无法与其他前沿模型比较——它们都没有发布同等数据。
处于困境中的人会使用一切可用的沟通工具,而ChatGPT如今已是全球使用最广泛的工具之一。关键在于,当实验室检测到这些状态时,它们会怎么做。
我开始关注"个人AI安全"问题,是因为AI安全领域的关注重点与日常用户的实际遭遇之间存在明显脱节。catastrophic risk(灾难性风险)被该领域视为优先事项,大部分投资也流向这里。日常认知与心理健康伤害则像是脚注。
有一点我不理解。大规模破坏或CBRN(化学、生物、放射性和核)内容遭遇的是硬墙:模型拒绝、对话终止、无论如何重新表述都无法突破。自杀意念得到的却是软引导——一个危机热线链接,然后对话继续。
据OpenAI自己的法庭文件,Adam Raine被ChatGPT引导至危机资源超过100次,而同一段对话据称帮助他完善了方法。这种"引导-继续"协议是否失效,正是法庭目前正在裁决的问题。而这套协议至今仍在使用。
为什么心理健康危机不是门禁类别?那种对话立即停止、用户被转接给真人的情况?我找不到具体答案。
核心问题在于:为灾难性风险构建的安全框架被延伸至认知伤害领域时,只是作为监测手段,而非门禁机制。这种延伸显得不完整、不充分。实验室测量的是它们被施压要求测量的内容。门禁决策反映的是它们认为不可接受的产品行为。
令人失望的是,当前"不可接受"的行为清单中并不包含任何认知伤害,无论测量到的严重程度如何。这是结构性决策,且没有明确迹象表明政策正在迫使实验室改变行为。
在此之前,"AI安全"与"个人AI安全"描述的是两种截然不同的承诺,即便它们出现在系统卡片的同一标题下。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.