网易首页 > 网易科技 > 网易科技 > 正文

GPT-4发布前,OpenAI曾雇各行专家开展“对抗性测试”以规避歧视等问题

0
分享至

4月17日消息,人工智能初创企业OpenAI在发布大型语言模型GPT-4之前,雇佣各行各业的专家组成“蓝军”团队,对模型可能会出现哪些问题进行“对抗性测试”。专家们提出各种探索性或危险问题,测试人工智能如何进行回应;OpenAI将用这些发现重新训练GPT-4并解决问题。

在安德鲁·怀特(Andrew White)获得权限调用人工智能聊天机器人背后的新模型GPT-4后,他利用其提出了一种全新的神经毒剂。

作为罗切斯特大学的化学工程教授,怀特是OpenAI去年聘请的50名学者和专家之一,他们共同组成了OpenAI的“蓝军”团队。在六个月的时间里,“蓝军”成员将对新模型进行“定性探测和对抗性测试”,看能否攻破GPT-4。

怀特表示,他使用GPT-4提出一种可以用作化学毒剂的化合物,还引入诸如科学论文和化学品制造商名目等能为新语言模型提供信息来源的各种“插件”。结果人工智能聊天机器人甚至找到了地方来制作这种化学毒剂。

怀特说:“我认为人工智能将为每个人都带来更快更准确开展化学实验的工具。”“但也有人们会用人工智能做危险化学实验的风险……现在这种情况确实存在。”

引入“蓝军测试”的做法让OpenAI能确保,在GPT-4发布时不会出现这种后果。

“蓝军测试”的目的是为了打消人们认为在社会上部署强大人工智能系统存在危险的担忧。“蓝军”团队的工作就是提出各种探索性或危险问题,测试人工智能如何进行回应。

OpenAI想要知道新模型对不良问题会做出何种反应。因此,“蓝军”团队测试了谎言、语言操纵和危险科学常识等问题。他们还研究了新模型在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的可能性。

GPT-4“蓝军”团队来自各行各业,有学者、教师、律师、风险分析师和安全研究人员,主要工作地点在美国和欧洲。

他们将发现反馈给OpenAI, OpenAI在公开发布GPT-4之前,用团队成员的发现结果来重新训练GPT-4并解决问题。在几个月的时间里,成员们每人会花费10到40个小时的时间来测试新模型。多位受访者表示,自己的时薪约为100美元。

很多“蓝军”团队成员都担心大型语言模型的快速发展,更担心通过各种插件与外部知识源连接起来的风险。

“现在系统是被冻结了,这意味着它不再学习,也不再有记忆,”GPT-4“蓝军”成员、瓦伦西亚人工智能研究所教授何塞·埃尔南德斯-奥拉洛(José Hernández-Orallo)说。“但如果我们用它来上网呢?这可能是一个与全世界相连的非常强大系统。”

OpenAI表示,公司非常重视安全性,在发布前会对各种插件进行测试。而且随着越来越多的人使用GPT-4,OpenAI将定期对模型进行更新。

技术和人权研究员罗亚·帕克扎德(Roya Pakzad)使用英语和波斯语问题来测试GPT-4模型在性别、种族和宗教方面是否存在偏见。

帕克扎德发现,即便更新后,即使在后来更新的版本中,GPT-4也有对边缘化社区的明显刻板印象。

她还发现,在用波斯语问题测试模型时,聊天机器人用编造信息回答问题的“幻觉”现象更严重。与英语相比,机器人用波斯语虚构的名字、数字和事件更多。

帕克扎德说:“我担心语言多样性和语言背后的文化可能会衰减。”

常驻内罗毕的律师博鲁·戈洛(Boru Gollo)是唯一一位来自非洲的测试者,他也注意到新模型带有歧视性语气。“在我测试这个模型的时候,它就像一个白人在跟我说话,”戈洛说。“如果你问到某个特定群体,它会给你一个有偏见的观点或非常有偏见的答案。”OpenAI也承认GPT-4仍然存在偏见。

从安全角度评估模型的“蓝军”成员则对新模型安全性有着不同的看法。来自美国外交关系委员会的研究员劳伦·卡恩(Lauren Kahn)表示,当她开始研究这种技术是否有可能被用于网络攻击时,表示“没想到它会如此详细,以至于进行微调就可以实施”。然而卡恩和其他测试人员发现,随着时间推移,新模型的回应变得相当安全。OpenAI表示,在GPT-4发布之前,公司对其进行了有关拒绝恶意网络安全请求的训练。

“蓝军”的许多成员表示,OpenAI在发布前已经做了严格安全评估。卡耐基梅隆大学语言模型毒性研究专家马丁·萨普(Maarten Sap)说:“他们在消除系统中明显毒性方面做得相当不错。”

自上线ChatGPT以来,OpenAI也受到多方批评,有技术道德组织向美国联邦贸易委员会(FTC)投诉称,GPT-4“有偏见、具有欺骗性,对隐私和公共安全构成威胁”。

最近,OpenAI还推出了名为ChatGPT插件的功能,Expedia、OpenTable和Instacart等合作伙伴应用程序可以通过这一功能让ChatGPT访问他们的服务,允许其代表人类用户订购商品。

“蓝军”团队的人工智能安全专家丹·亨德里克斯(Dan Hendrycks)表示,这种插件可能会让人类自己成了“局外人”。

“如果聊天机器人可以把你的私人信息发布到网上,访问你的银行账户,或者派人到你家里去,你会怎么想?”亨德里克斯说。“总的来说,在我们让人工智能掌握网络力量之前,我们需要更强有力的安全评估。”

“蓝军”成员还警告说,OpenAI不能仅仅因为软件实时响应就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟·弗雷斯(Heather Frase)还对GPT-4是否会协助犯罪行为进行了测试。她说,随着越来越多的人使用这项技术,风险将继续增加。

她说:“你做实际运行测试的原因是,一旦用到真实环境中,它们的表现就不同了。她认为,应该开发公共系统来报告大型语言模型引发的各类事件,类似于网络安全或消费者欺诈报告系统。

劳动经济学家兼研究员莎拉·金斯利(Sara Kingsley)建议,最好的解决办法是像食品包装上的“营养标签”那样,直接说明危害和风险。

她说:“关键是要有一个框架,知道经常出现的问题是什么,这样你就可以有一个安全阀。”“这就是为什么我说工作永远做不完。”(辰辰)

延伸阅读
相关推荐
热点推荐
大佬这一把赚了上百亿啊,太牛逼了!!!

大佬这一把赚了上百亿啊,太牛逼了!!!

风风顺
2025-12-17 12:25:24
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

凡知
2025-08-16 09:25:44
《战神三部曲:重制版》激怒粉丝:对重制版没兴趣!

《战神三部曲:重制版》激怒粉丝:对重制版没兴趣!

游民星空
2026-02-14 10:30:15
58岁婆婆给小叔子带娃,开口找我要3000养老费,我一招让她红了脸

58岁婆婆给小叔子带娃,开口找我要3000养老费,我一招让她红了脸

木子言故事
2026-02-14 10:09:21
2月13日冬奥会奖牌榜更新:中国0金、遭韩国超越!第一名难以撼动

2月13日冬奥会奖牌榜更新:中国0金、遭韩国超越!第一名难以撼动

十点街球体育
2026-02-13 11:40:02
全面接受中国条件,立陶宛政府举白旗,5年的恶斗,中方大获全胜

全面接受中国条件,立陶宛政府举白旗,5年的恶斗,中方大获全胜

范瞼舍长
2026-02-14 05:32:39
有手机标称9000mAh实际连感觉7000mAh都没有 华为:我们标称多少就能用多少

有手机标称9000mAh实际连感觉7000mAh都没有 华为:我们标称多少就能用多少

快科技
2026-02-13 12:33:36
市民吐槽百果园一根甘蔗卖87元,门店回应:是黄金手撕甘蔗,那位顾客购买时明确告知了价格

市民吐槽百果园一根甘蔗卖87元,门店回应:是黄金手撕甘蔗,那位顾客购买时明确告知了价格

观威海
2026-02-14 09:50:10
账号被禁言后,千万粉丝博主“保罗在美国”道歉:内容尺度考虑不周!此前其发布妻子生产过程,还植入尿不湿广告,引发争议

账号被禁言后,千万粉丝博主“保罗在美国”道歉:内容尺度考虑不周!此前其发布妻子生产过程,还植入尿不湿广告,引发争议

每日经济新闻
2026-02-14 00:47:07
中戏又抓一个!系主任主动投案,闫学晶儿子的学历雷爆了?

中戏又抓一个!系主任主动投案,闫学晶儿子的学历雷爆了?

社会日日鲜
2026-02-14 10:50:34
1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

文史明鉴
2026-01-20 15:11:14
“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

妍妍教育日记
2026-01-08 20:37:01
我发现,92岁还在世的爷爷,并没有78岁就去世的叔公幸福

我发现,92岁还在世的爷爷,并没有78岁就去世的叔公幸福

小马达情感故事
2026-02-13 11:35:03
瑞士拟就人口限制举措进行公投

瑞士拟就人口限制举措进行公投

财联社
2026-02-13 20:36:03
唯一参加四次起义的中共高级将领,受处分后脱党,85岁在香港去世

唯一参加四次起义的中共高级将领,受处分后脱党,85岁在香港去世

海佑讲史
2026-02-12 07:00:11
从“新疆班”到连环落马:闫学晶事件,炸出中戏多少黑幕?

从“新疆班”到连环落马:闫学晶事件,炸出中戏多少黑幕?

社会日日鲜
2026-02-14 10:27:23
中国女子冰壶爆冷 击败卫冕冠军背后原因曝光 这场胜利或改变格局

中国女子冰壶爆冷 击败卫冕冠军背后原因曝光 这场胜利或改变格局

宝哥精彩赛事
2026-02-13 21:51:17
花小钱办大事,本赛季NBA最被低估的5大交易,直接改善球队体系

花小钱办大事,本赛季NBA最被低估的5大交易,直接改善球队体系

毒舌NBA
2026-02-14 09:42:32
2-1,63岁穆帅发威:率队22轮不败,逼近葡超榜首,继续冲冠军

2-1,63岁穆帅发威:率队22轮不败,逼近葡超榜首,继续冲冠军

俯身冲顶
2026-02-14 06:33:36
日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

来科点谱
2026-02-13 07:08:11
2026-02-14 13:56:50

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

爱泼斯坦丑闻风暴席卷英国 首相斯塔默被公开"逼宫"

头条要闻

爱泼斯坦丑闻风暴席卷英国 首相斯塔默被公开"逼宫"

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

房产
本地
数码
时尚
公开课

房产要闻

三亚新机场,又传出新消息!

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

数码要闻

实战什么水平?天选Air 2026锐龙AI Max版8060S核显游戏对比测试

穿上这些鞋拥抱春天

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×