网易首页 > 网易科技 > 网易科技 > 正文

GPT-4发布前,OpenAI曾雇各行专家开展“对抗性测试”以规避歧视等问题

0
分享至

4月17日消息,人工智能初创企业OpenAI在发布大型语言模型GPT-4之前,雇佣各行各业的专家组成“蓝军”团队,对模型可能会出现哪些问题进行“对抗性测试”。专家们提出各种探索性或危险问题,测试人工智能如何进行回应;OpenAI将用这些发现重新训练GPT-4并解决问题。

在安德鲁·怀特(Andrew White)获得权限调用人工智能聊天机器人背后的新模型GPT-4后,他利用其提出了一种全新的神经毒剂。

作为罗切斯特大学的化学工程教授,怀特是OpenAI去年聘请的50名学者和专家之一,他们共同组成了OpenAI的“蓝军”团队。在六个月的时间里,“蓝军”成员将对新模型进行“定性探测和对抗性测试”,看能否攻破GPT-4。

怀特表示,他使用GPT-4提出一种可以用作化学毒剂的化合物,还引入诸如科学论文和化学品制造商名目等能为新语言模型提供信息来源的各种“插件”。结果人工智能聊天机器人甚至找到了地方来制作这种化学毒剂。

怀特说:“我认为人工智能将为每个人都带来更快更准确开展化学实验的工具。”“但也有人们会用人工智能做危险化学实验的风险……现在这种情况确实存在。”

引入“蓝军测试”的做法让OpenAI能确保,在GPT-4发布时不会出现这种后果。

“蓝军测试”的目的是为了打消人们认为在社会上部署强大人工智能系统存在危险的担忧。“蓝军”团队的工作就是提出各种探索性或危险问题,测试人工智能如何进行回应。

OpenAI想要知道新模型对不良问题会做出何种反应。因此,“蓝军”团队测试了谎言、语言操纵和危险科学常识等问题。他们还研究了新模型在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的可能性。

GPT-4“蓝军”团队来自各行各业,有学者、教师、律师、风险分析师和安全研究人员,主要工作地点在美国和欧洲。

他们将发现反馈给OpenAI, OpenAI在公开发布GPT-4之前,用团队成员的发现结果来重新训练GPT-4并解决问题。在几个月的时间里,成员们每人会花费10到40个小时的时间来测试新模型。多位受访者表示,自己的时薪约为100美元。

很多“蓝军”团队成员都担心大型语言模型的快速发展,更担心通过各种插件与外部知识源连接起来的风险。

“现在系统是被冻结了,这意味着它不再学习,也不再有记忆,”GPT-4“蓝军”成员、瓦伦西亚人工智能研究所教授何塞·埃尔南德斯-奥拉洛(José Hernández-Orallo)说。“但如果我们用它来上网呢?这可能是一个与全世界相连的非常强大系统。”

OpenAI表示,公司非常重视安全性,在发布前会对各种插件进行测试。而且随着越来越多的人使用GPT-4,OpenAI将定期对模型进行更新。

技术和人权研究员罗亚·帕克扎德(Roya Pakzad)使用英语和波斯语问题来测试GPT-4模型在性别、种族和宗教方面是否存在偏见。

帕克扎德发现,即便更新后,即使在后来更新的版本中,GPT-4也有对边缘化社区的明显刻板印象。

她还发现,在用波斯语问题测试模型时,聊天机器人用编造信息回答问题的“幻觉”现象更严重。与英语相比,机器人用波斯语虚构的名字、数字和事件更多。

帕克扎德说:“我担心语言多样性和语言背后的文化可能会衰减。”

常驻内罗毕的律师博鲁·戈洛(Boru Gollo)是唯一一位来自非洲的测试者,他也注意到新模型带有歧视性语气。“在我测试这个模型的时候,它就像一个白人在跟我说话,”戈洛说。“如果你问到某个特定群体,它会给你一个有偏见的观点或非常有偏见的答案。”OpenAI也承认GPT-4仍然存在偏见。

从安全角度评估模型的“蓝军”成员则对新模型安全性有着不同的看法。来自美国外交关系委员会的研究员劳伦·卡恩(Lauren Kahn)表示,当她开始研究这种技术是否有可能被用于网络攻击时,表示“没想到它会如此详细,以至于进行微调就可以实施”。然而卡恩和其他测试人员发现,随着时间推移,新模型的回应变得相当安全。OpenAI表示,在GPT-4发布之前,公司对其进行了有关拒绝恶意网络安全请求的训练。

“蓝军”的许多成员表示,OpenAI在发布前已经做了严格安全评估。卡耐基梅隆大学语言模型毒性研究专家马丁·萨普(Maarten Sap)说:“他们在消除系统中明显毒性方面做得相当不错。”

自上线ChatGPT以来,OpenAI也受到多方批评,有技术道德组织向美国联邦贸易委员会(FTC)投诉称,GPT-4“有偏见、具有欺骗性,对隐私和公共安全构成威胁”。

最近,OpenAI还推出了名为ChatGPT插件的功能,Expedia、OpenTable和Instacart等合作伙伴应用程序可以通过这一功能让ChatGPT访问他们的服务,允许其代表人类用户订购商品。

“蓝军”团队的人工智能安全专家丹·亨德里克斯(Dan Hendrycks)表示,这种插件可能会让人类自己成了“局外人”。

“如果聊天机器人可以把你的私人信息发布到网上,访问你的银行账户,或者派人到你家里去,你会怎么想?”亨德里克斯说。“总的来说,在我们让人工智能掌握网络力量之前,我们需要更强有力的安全评估。”

“蓝军”成员还警告说,OpenAI不能仅仅因为软件实时响应就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟·弗雷斯(Heather Frase)还对GPT-4是否会协助犯罪行为进行了测试。她说,随着越来越多的人使用这项技术,风险将继续增加。

她说:“你做实际运行测试的原因是,一旦用到真实环境中,它们的表现就不同了。她认为,应该开发公共系统来报告大型语言模型引发的各类事件,类似于网络安全或消费者欺诈报告系统。

劳动经济学家兼研究员莎拉·金斯利(Sara Kingsley)建议,最好的解决办法是像食品包装上的“营养标签”那样,直接说明危害和风险。

她说:“关键是要有一个框架,知道经常出现的问题是什么,这样你就可以有一个安全阀。”“这就是为什么我说工作永远做不完。”(辰辰)

延伸阅读
相关推荐
热点推荐
眉骨缝了三针!徐杰更新社媒报平安:“新赛季 为广东而战”

眉骨缝了三针!徐杰更新社媒报平安:“新赛季 为广东而战”

狼叔评论
2025-12-15 01:10:11
罕见!东莞一棵荔枝树在12月结果

罕见!东莞一棵荔枝树在12月结果

新快报新闻
2025-12-13 22:23:15
石家庄精英中学,出事了?

石家庄精英中学,出事了?

周一叨
2025-12-14 17:18:30
女教师新婚当天从7楼坠亡 老家村干部:她可能有抑郁症,双方家庭都很悲伤内疚

女教师新婚当天从7楼坠亡 老家村干部:她可能有抑郁症,双方家庭都很悲伤内疚

红星新闻
2025-12-14 19:33:05
“短剧女王”郭宇欣真实颜值曝光,方脸龅牙大粗腿,26岁模样成熟

“短剧女王”郭宇欣真实颜值曝光,方脸龅牙大粗腿,26岁模样成熟

小娱乐悠悠
2025-12-13 14:13:53
全面反华开始?特朗普不当老二,9国在白宫签字,要废中国王牌

全面反华开始?特朗普不当老二,9国在白宫签字,要废中国王牌

现代小青青慕慕
2025-12-14 12:31:05
徐萌这身材绝了,难怪八旬范大师沦陷,换谁也扛不住

徐萌这身材绝了,难怪八旬范大师沦陷,换谁也扛不住

西门老爹
2025-12-12 20:18:17
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
袁世凯坐龙椅的真实老照片,接受群臣朝拜,“妃子们”也非常漂亮

袁世凯坐龙椅的真实老照片,接受群臣朝拜,“妃子们”也非常漂亮

文史微鉴
2025-12-13 22:13:15
621年李世民之子降生,袁天罡看了一眼婴儿长叹:此子其父是真龙

621年李世民之子降生,袁天罡看了一眼婴儿长叹:此子其父是真龙

如烟若梦
2025-12-05 18:15:03
“指纹锁”正在退出中国家庭?开锁师傅说出实情,让我恍然大悟!

“指纹锁”正在退出中国家庭?开锁师傅说出实情,让我恍然大悟!

空间设计
2025-11-26 12:32:03
乾隆出上联:此木为柴山山出,6岁稚童巧对下联,还破了一桩悬案

乾隆出上联:此木为柴山山出,6岁稚童巧对下联,还破了一桩悬案

凯裕说故事
2025-08-19 17:16:08
被对手大外援抢爆篮板!杜锋内涵焦柏乔不是年轻球员该有精神面貌

被对手大外援抢爆篮板!杜锋内涵焦柏乔不是年轻球员该有精神面貌

狼叔评论
2025-12-14 22:46:07
两腿一蹬,一切成空!湖南富豪瓷砖大佬猝然离世,年仅44岁!

两腿一蹬,一切成空!湖南富豪瓷砖大佬猝然离世,年仅44岁!

今朝牛马
2025-12-06 12:14:51
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
香港总决赛落幕!诞生5个赢家+3个输家,王曼昱 张本智和位列其中

香港总决赛落幕!诞生5个赢家+3个输家,王曼昱 张本智和位列其中

侃球熊弟
2025-12-14 22:11:29
今年三九天,“十年不遇”,今年冬天到底冷不冷,答案来了

今年三九天,“十年不遇”,今年冬天到底冷不冷,答案来了

三农雷哥
2025-12-11 09:07:38
驻日美军“炮轰”中方,污蔑辽宁舰挑衅日本,要替高市主持公道

驻日美军“炮轰”中方,污蔑辽宁舰挑衅日本,要替高市主持公道

第一军情
2025-12-14 17:05:03
报了名的张水华在医院上班,没跑“家门口的”福州马拉松;护士长:是正常排班,没有特殊照顾也不会针对她;白岩松评张水华事件

报了名的张水华在医院上班,没跑“家门口的”福州马拉松;护士长:是正常排班,没有特殊照顾也不会针对她;白岩松评张水华事件

每日经济新闻
2025-12-15 00:41:39
广东男篮为何赢得那么难?赛后主帅杜锋给出了答案,徐杰伤情曝光

广东男篮为何赢得那么难?赛后主帅杜锋给出了答案,徐杰伤情曝光

萌兰聊个球
2025-12-14 23:07:38
2025-12-15 04:48:49

科技要闻

当人形机器人有了App Store,宇树在赌什么

头条要闻

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

头条要闻

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

体育要闻

马刺终结雷霆:以勇猛,以文班亚马

娱乐要闻

何晴生前最大谣言!没有再婚嫁廖京生

财经要闻

重大违法强制退市!10人被判刑

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

手机
时尚
旅游
数码
军事航空

手机要闻

澎湃OS优化进展公布,小米15手机相机体验等问题已修复

终于在广州最舒服的季节和你们见面啦

旅游要闻

冬天去哪玩?尔滨 120 万㎡冰雪王国等你来打卡

数码要闻

Beats携手IShowSpeed合作短片 《速稳风云》全球上线

军事要闻

3名美方人员遇袭死亡 特朗普誓言报复

无障碍浏览 进入关怀版
×