网易首页 > 网易科技 > 网易科技 > 正文

GPT-4发布前,OpenAI曾雇各行专家开展“对抗性测试”以规避歧视等问题

0
分享至

4月17日消息,人工智能初创企业OpenAI在发布大型语言模型GPT-4之前,雇佣各行各业的专家组成“蓝军”团队,对模型可能会出现哪些问题进行“对抗性测试”。专家们提出各种探索性或危险问题,测试人工智能如何进行回应;OpenAI将用这些发现重新训练GPT-4并解决问题。

在安德鲁·怀特(Andrew White)获得权限调用人工智能聊天机器人背后的新模型GPT-4后,他利用其提出了一种全新的神经毒剂。

作为罗切斯特大学的化学工程教授,怀特是OpenAI去年聘请的50名学者和专家之一,他们共同组成了OpenAI的“蓝军”团队。在六个月的时间里,“蓝军”成员将对新模型进行“定性探测和对抗性测试”,看能否攻破GPT-4。

怀特表示,他使用GPT-4提出一种可以用作化学毒剂的化合物,还引入诸如科学论文和化学品制造商名目等能为新语言模型提供信息来源的各种“插件”。结果人工智能聊天机器人甚至找到了地方来制作这种化学毒剂。

怀特说:“我认为人工智能将为每个人都带来更快更准确开展化学实验的工具。”“但也有人们会用人工智能做危险化学实验的风险……现在这种情况确实存在。”

引入“蓝军测试”的做法让OpenAI能确保,在GPT-4发布时不会出现这种后果。

“蓝军测试”的目的是为了打消人们认为在社会上部署强大人工智能系统存在危险的担忧。“蓝军”团队的工作就是提出各种探索性或危险问题,测试人工智能如何进行回应。

OpenAI想要知道新模型对不良问题会做出何种反应。因此,“蓝军”团队测试了谎言、语言操纵和危险科学常识等问题。他们还研究了新模型在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的可能性。

GPT-4“蓝军”团队来自各行各业,有学者、教师、律师、风险分析师和安全研究人员,主要工作地点在美国和欧洲。

他们将发现反馈给OpenAI, OpenAI在公开发布GPT-4之前,用团队成员的发现结果来重新训练GPT-4并解决问题。在几个月的时间里,成员们每人会花费10到40个小时的时间来测试新模型。多位受访者表示,自己的时薪约为100美元。

很多“蓝军”团队成员都担心大型语言模型的快速发展,更担心通过各种插件与外部知识源连接起来的风险。

“现在系统是被冻结了,这意味着它不再学习,也不再有记忆,”GPT-4“蓝军”成员、瓦伦西亚人工智能研究所教授何塞·埃尔南德斯-奥拉洛(José Hernández-Orallo)说。“但如果我们用它来上网呢?这可能是一个与全世界相连的非常强大系统。”

OpenAI表示,公司非常重视安全性,在发布前会对各种插件进行测试。而且随着越来越多的人使用GPT-4,OpenAI将定期对模型进行更新。

技术和人权研究员罗亚·帕克扎德(Roya Pakzad)使用英语和波斯语问题来测试GPT-4模型在性别、种族和宗教方面是否存在偏见。

帕克扎德发现,即便更新后,即使在后来更新的版本中,GPT-4也有对边缘化社区的明显刻板印象。

她还发现,在用波斯语问题测试模型时,聊天机器人用编造信息回答问题的“幻觉”现象更严重。与英语相比,机器人用波斯语虚构的名字、数字和事件更多。

帕克扎德说:“我担心语言多样性和语言背后的文化可能会衰减。”

常驻内罗毕的律师博鲁·戈洛(Boru Gollo)是唯一一位来自非洲的测试者,他也注意到新模型带有歧视性语气。“在我测试这个模型的时候,它就像一个白人在跟我说话,”戈洛说。“如果你问到某个特定群体,它会给你一个有偏见的观点或非常有偏见的答案。”OpenAI也承认GPT-4仍然存在偏见。

从安全角度评估模型的“蓝军”成员则对新模型安全性有着不同的看法。来自美国外交关系委员会的研究员劳伦·卡恩(Lauren Kahn)表示,当她开始研究这种技术是否有可能被用于网络攻击时,表示“没想到它会如此详细,以至于进行微调就可以实施”。然而卡恩和其他测试人员发现,随着时间推移,新模型的回应变得相当安全。OpenAI表示,在GPT-4发布之前,公司对其进行了有关拒绝恶意网络安全请求的训练。

“蓝军”的许多成员表示,OpenAI在发布前已经做了严格安全评估。卡耐基梅隆大学语言模型毒性研究专家马丁·萨普(Maarten Sap)说:“他们在消除系统中明显毒性方面做得相当不错。”

自上线ChatGPT以来,OpenAI也受到多方批评,有技术道德组织向美国联邦贸易委员会(FTC)投诉称,GPT-4“有偏见、具有欺骗性,对隐私和公共安全构成威胁”。

最近,OpenAI还推出了名为ChatGPT插件的功能,Expedia、OpenTable和Instacart等合作伙伴应用程序可以通过这一功能让ChatGPT访问他们的服务,允许其代表人类用户订购商品。

“蓝军”团队的人工智能安全专家丹·亨德里克斯(Dan Hendrycks)表示,这种插件可能会让人类自己成了“局外人”。

“如果聊天机器人可以把你的私人信息发布到网上,访问你的银行账户,或者派人到你家里去,你会怎么想?”亨德里克斯说。“总的来说,在我们让人工智能掌握网络力量之前,我们需要更强有力的安全评估。”

“蓝军”成员还警告说,OpenAI不能仅仅因为软件实时响应就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟·弗雷斯(Heather Frase)还对GPT-4是否会协助犯罪行为进行了测试。她说,随着越来越多的人使用这项技术,风险将继续增加。

她说:“你做实际运行测试的原因是,一旦用到真实环境中,它们的表现就不同了。她认为,应该开发公共系统来报告大型语言模型引发的各类事件,类似于网络安全或消费者欺诈报告系统。

劳动经济学家兼研究员莎拉·金斯利(Sara Kingsley)建议,最好的解决办法是像食品包装上的“营养标签”那样,直接说明危害和风险。

她说:“关键是要有一个框架,知道经常出现的问题是什么,这样你就可以有一个安全阀。”“这就是为什么我说工作永远做不完。”(辰辰)

延伸阅读
相关推荐
热点推荐
何晴去世更多细节公开,被曝手术后智商像儿童,许亚军被骂薄情!

何晴去世更多细节公开,被曝手术后智商像儿童,许亚军被骂薄情!

东方不败然多多
2025-12-14 13:50:43
五旬男子按摩店猝死,知情人爆料:老板娘年轻漂亮,小孩才几岁!

五旬男子按摩店猝死,知情人爆料:老板娘年轻漂亮,小孩才几岁!

阿芒娱乐说
2025-12-14 14:44:06
中国对日称呼有变,非常罕见,日本右翼回过味来:我们该卧薪尝胆

中国对日称呼有变,非常罕见,日本右翼回过味来:我们该卧薪尝胆

好笑娱乐君每一天
2025-12-14 14:45:36
徕芬回应发布会撞景《周处除三害》灵修场面:与电影无关,系品牌常用设计风格

徕芬回应发布会撞景《周处除三害》灵修场面:与电影无关,系品牌常用设计风格

新浪财经
2025-12-12 19:47:25
泽连斯基库城之行的4大意义

泽连斯基库城之行的4大意义

史政先锋
2025-12-14 12:45:08
24架中国苏35成香饽饽!俄伊都抢,8500万美刀一架不降价

24架中国苏35成香饽饽!俄伊都抢,8500万美刀一架不降价

起喜电影
2025-12-12 07:56:05
文班亚马你太狠了,22分钟打爆16连胜雷霆,2.5亿顶薪稳了

文班亚马你太狠了,22分钟打爆16连胜雷霆,2.5亿顶薪稳了

大西体育
2025-12-14 14:30:27
宋智孝八年地下情曝光!RM录制中悄悄恋爱,藏得太深

宋智孝八年地下情曝光!RM录制中悄悄恋爱,藏得太深

今古深日报
2025-12-14 11:49:48
他不服文革判决,越狱流亡3万里,居然活着熬到平反

他不服文革判决,越狱流亡3万里,居然活着熬到平反

瑾瑜聊情感
2025-08-21 23:50:34
轰22分+限制亚历山大!马刺21岁新星崛起,名嘴:未来会成超巨

轰22分+限制亚历山大!马刺21岁新星崛起,名嘴:未来会成超巨

李喜林篮球绝杀
2025-12-14 15:50:57
北京今冬不撒融雪剂,背后藏着一个普通人能抓的“绿金矿”?

北京今冬不撒融雪剂,背后藏着一个普通人能抓的“绿金矿”?

三农老历
2025-12-14 10:35:25
10天迎来魔鬼六连客!火箭“噩梦”进入倒计时?西部第二恐难保!

10天迎来魔鬼六连客!火箭“噩梦”进入倒计时?西部第二恐难保!

田先生篮球
2025-12-14 13:44:00
重大资产重组终止,780亿芯片大牛股突然宣布

重大资产重组终止,780亿芯片大牛股突然宣布

21世纪经济报道
2025-12-14 07:32:38
老婆被外派非洲8年,直到偶遇她上司,惊讶知道:她5年前就离职了

老婆被外派非洲8年,直到偶遇她上司,惊讶知道:她5年前就离职了

农村情感故事
2025-12-07 15:05:41
有一种算计叫车晓和李兆会,离婚12年后,二人之间的输赢高下立见

有一种算计叫车晓和李兆会,离婚12年后,二人之间的输赢高下立见

娱说瑜悦
2025-12-08 14:13:53
纪委酒后吐真言:比被查更可怕的,是你已经“死”在晚上的饭局里

纪委酒后吐真言:比被查更可怕的,是你已经“死”在晚上的饭局里

一口娱乐
2025-12-12 08:56:25
大众帕萨特裸车价11.85万起!网友:这还考虑啥?

大众帕萨特裸车价11.85万起!网友:这还考虑啥?

汽车网评
2025-12-13 21:43:09
首都机场掌舵人的极刑之路:下班飞澳门一夜输600万,调公款平账

首都机场掌舵人的极刑之路:下班飞澳门一夜输600万,调公款平账

明月清风阁
2025-11-23 10:45:03
美国提交退出北约法案,北约国家一片哀嚎!

美国提交退出北约法案,北约国家一片哀嚎!

达文西看世界
2025-12-14 12:08:22
茅台跌破指导价,本质是“老登文化”的破产,年轻人不再接盘了

茅台跌破指导价,本质是“老登文化”的破产,年轻人不再接盘了

爆角追踪
2025-12-14 12:57:36
2025-12-14 16:03:00

科技要闻

当人形机器人有了App Store,宇树在赌什么

头条要闻

中国留学生亲历美大学枪击案:当时在想美国水泥厚不厚

头条要闻

中国留学生亲历美大学枪击案:当时在想美国水泥厚不厚

体育要闻

梅西致谢球迷:荣幸在印度共度这些日子

娱乐要闻

“仙女归班”!演员何晴去世,享年61岁

财经要闻

重大违法强制退市!10人被判刑

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

房产
本地
亲子
手机
公开课

房产要闻

车程5分钟价差300万 海棠湾的这个盘要火!

本地新闻

云游安徽|阜阳三朝风骨,传承千年墨香

亲子要闻

“天王嫂”方媛产后坐月子生活曝光!夜晚给女儿读诗听好温馨

手机要闻

OPPO Find X9 Ultra新机确认,周意保透露“史无前例的强”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×