网易首页 > 网易科技 > 网易科技 > 正文

GPT-4发布前,OpenAI曾雇各行专家开展“对抗性测试”以规避歧视等问题

0
分享至

4月17日消息,人工智能初创企业OpenAI在发布大型语言模型GPT-4之前,雇佣各行各业的专家组成“蓝军”团队,对模型可能会出现哪些问题进行“对抗性测试”。专家们提出各种探索性或危险问题,测试人工智能如何进行回应;OpenAI将用这些发现重新训练GPT-4并解决问题。

在安德鲁·怀特(Andrew White)获得权限调用人工智能聊天机器人背后的新模型GPT-4后,他利用其提出了一种全新的神经毒剂。

作为罗切斯特大学的化学工程教授,怀特是OpenAI去年聘请的50名学者和专家之一,他们共同组成了OpenAI的“蓝军”团队。在六个月的时间里,“蓝军”成员将对新模型进行“定性探测和对抗性测试”,看能否攻破GPT-4。

怀特表示,他使用GPT-4提出一种可以用作化学毒剂的化合物,还引入诸如科学论文和化学品制造商名目等能为新语言模型提供信息来源的各种“插件”。结果人工智能聊天机器人甚至找到了地方来制作这种化学毒剂。

怀特说:“我认为人工智能将为每个人都带来更快更准确开展化学实验的工具。”“但也有人们会用人工智能做危险化学实验的风险……现在这种情况确实存在。”

引入“蓝军测试”的做法让OpenAI能确保,在GPT-4发布时不会出现这种后果。

“蓝军测试”的目的是为了打消人们认为在社会上部署强大人工智能系统存在危险的担忧。“蓝军”团队的工作就是提出各种探索性或危险问题,测试人工智能如何进行回应。

OpenAI想要知道新模型对不良问题会做出何种反应。因此,“蓝军”团队测试了谎言、语言操纵和危险科学常识等问题。他们还研究了新模型在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的可能性。

GPT-4“蓝军”团队来自各行各业,有学者、教师、律师、风险分析师和安全研究人员,主要工作地点在美国和欧洲。

他们将发现反馈给OpenAI, OpenAI在公开发布GPT-4之前,用团队成员的发现结果来重新训练GPT-4并解决问题。在几个月的时间里,成员们每人会花费10到40个小时的时间来测试新模型。多位受访者表示,自己的时薪约为100美元。

很多“蓝军”团队成员都担心大型语言模型的快速发展,更担心通过各种插件与外部知识源连接起来的风险。

“现在系统是被冻结了,这意味着它不再学习,也不再有记忆,”GPT-4“蓝军”成员、瓦伦西亚人工智能研究所教授何塞·埃尔南德斯-奥拉洛(José Hernández-Orallo)说。“但如果我们用它来上网呢?这可能是一个与全世界相连的非常强大系统。”

OpenAI表示,公司非常重视安全性,在发布前会对各种插件进行测试。而且随着越来越多的人使用GPT-4,OpenAI将定期对模型进行更新。

技术和人权研究员罗亚·帕克扎德(Roya Pakzad)使用英语和波斯语问题来测试GPT-4模型在性别、种族和宗教方面是否存在偏见。

帕克扎德发现,即便更新后,即使在后来更新的版本中,GPT-4也有对边缘化社区的明显刻板印象。

她还发现,在用波斯语问题测试模型时,聊天机器人用编造信息回答问题的“幻觉”现象更严重。与英语相比,机器人用波斯语虚构的名字、数字和事件更多。

帕克扎德说:“我担心语言多样性和语言背后的文化可能会衰减。”

常驻内罗毕的律师博鲁·戈洛(Boru Gollo)是唯一一位来自非洲的测试者,他也注意到新模型带有歧视性语气。“在我测试这个模型的时候,它就像一个白人在跟我说话,”戈洛说。“如果你问到某个特定群体,它会给你一个有偏见的观点或非常有偏见的答案。”OpenAI也承认GPT-4仍然存在偏见。

从安全角度评估模型的“蓝军”成员则对新模型安全性有着不同的看法。来自美国外交关系委员会的研究员劳伦·卡恩(Lauren Kahn)表示,当她开始研究这种技术是否有可能被用于网络攻击时,表示“没想到它会如此详细,以至于进行微调就可以实施”。然而卡恩和其他测试人员发现,随着时间推移,新模型的回应变得相当安全。OpenAI表示,在GPT-4发布之前,公司对其进行了有关拒绝恶意网络安全请求的训练。

“蓝军”的许多成员表示,OpenAI在发布前已经做了严格安全评估。卡耐基梅隆大学语言模型毒性研究专家马丁·萨普(Maarten Sap)说:“他们在消除系统中明显毒性方面做得相当不错。”

自上线ChatGPT以来,OpenAI也受到多方批评,有技术道德组织向美国联邦贸易委员会(FTC)投诉称,GPT-4“有偏见、具有欺骗性,对隐私和公共安全构成威胁”。

最近,OpenAI还推出了名为ChatGPT插件的功能,Expedia、OpenTable和Instacart等合作伙伴应用程序可以通过这一功能让ChatGPT访问他们的服务,允许其代表人类用户订购商品。

“蓝军”团队的人工智能安全专家丹·亨德里克斯(Dan Hendrycks)表示,这种插件可能会让人类自己成了“局外人”。

“如果聊天机器人可以把你的私人信息发布到网上,访问你的银行账户,或者派人到你家里去,你会怎么想?”亨德里克斯说。“总的来说,在我们让人工智能掌握网络力量之前,我们需要更强有力的安全评估。”

“蓝军”成员还警告说,OpenAI不能仅仅因为软件实时响应就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟·弗雷斯(Heather Frase)还对GPT-4是否会协助犯罪行为进行了测试。她说,随着越来越多的人使用这项技术,风险将继续增加。

她说:“你做实际运行测试的原因是,一旦用到真实环境中,它们的表现就不同了。她认为,应该开发公共系统来报告大型语言模型引发的各类事件,类似于网络安全或消费者欺诈报告系统。

劳动经济学家兼研究员莎拉·金斯利(Sara Kingsley)建议,最好的解决办法是像食品包装上的“营养标签”那样,直接说明危害和风险。

她说:“关键是要有一个框架,知道经常出现的问题是什么,这样你就可以有一个安全阀。”“这就是为什么我说工作永远做不完。”(辰辰)

延伸阅读
相关推荐
热点推荐
再见巴萨!16岁青训天才,2亿套现,转投巴黎,拉波尔塔没办法

再见巴萨!16岁青训天才,2亿套现,转投巴黎,拉波尔塔没办法

球文速递
2024-04-25 00:10:47
被上海奶奶圈粉了!坚决不穿老年装,裙不配运动鞋,美得优雅得体

被上海奶奶圈粉了!坚决不穿老年装,裙不配运动鞋,美得优雅得体

时尚穿搭生活馆
2024-04-06 23:07:27
违反中央八项规定精神,河南省纪委监委点名6名干部

违反中央八项规定精神,河南省纪委监委点名6名干部

新京报
2024-04-25 11:39:18
2-0改写4队命运!争冠大变:利物浦退出,曼城不胜将看阿森纳夺冠

2-0改写4队命运!争冠大变:利物浦退出,曼城不胜将看阿森纳夺冠

体育知多少
2024-04-25 06:23:30
商汤科技,惊艳全网!

商汤科技,惊艳全网!

纯洁的微笑
2024-04-24 12:17:14
希尔顿大小姐帕丽斯·希尔顿公开女儿Marilyn Hilton-Reum的正面照

希尔顿大小姐帕丽斯·希尔顿公开女儿Marilyn Hilton-Reum的正面照

娱乐八卦木木子
2024-04-24 13:47:05
该走了!空有1.1亿身价,不能拿劳塔罗赌国米未来马洛塔清醒得很

该走了!空有1.1亿身价,不能拿劳塔罗赌国米未来马洛塔清醒得很

小豆豆赛事
2024-04-25 12:06:49
崩盘!英超争冠掉队,没戏了

崩盘!英超争冠掉队,没戏了

足球大号
2024-04-25 13:42:39
知名演员章子怡,4月23号突然在社交平台高调发文 并晒出大量照片

知名演员章子怡,4月23号突然在社交平台高调发文 并晒出大量照片

娱乐圈酸柠檬
2024-04-24 15:28:11
河南相亲会,男子相中最漂亮女子,却被一脸嫌弃,女子:别选我

河南相亲会,男子相中最漂亮女子,却被一脸嫌弃,女子:别选我

佑宛故事汇
2024-04-24 14:51:46
洪金宝再添一孙女,阔气赠送一套半岛别墅!“投个好胎”的重要性

洪金宝再添一孙女,阔气赠送一套半岛别墅!“投个好胎”的重要性

雨天曼曼
2024-04-23 12:51:20
CCTV5直播!周琦遭禁赛,大秋或复出?宏远迎生死战,杜锋拒逆转

CCTV5直播!周琦遭禁赛,大秋或复出?宏远迎生死战,杜锋拒逆转

多特体育说
2024-04-24 23:30:54
霍勒迪:热火球员个子矮但运动能力出色 他们不给波津一对一机会

霍勒迪:热火球员个子矮但运动能力出色 他们不给波津一对一机会

直播吧
2024-04-25 13:26:11
2025世俱杯亚洲4名额已确定3席,艾因、横滨水手将争夺最后一名额

2025世俱杯亚洲4名额已确定3席,艾因、横滨水手将争夺最后一名额

直播吧
2024-04-25 09:42:24
Skip:热火文化没毛病&我喜欢 我还是搞不懂塔图姆

Skip:热火文化没毛病&我喜欢 我还是搞不懂塔图姆

直播吧
2024-04-25 10:56:25
全网落泪!三幼儿被关家里,没饭吃,地上屎尿,身上捂臭捂烂!

全网落泪!三幼儿被关家里,没饭吃,地上屎尿,身上捂臭捂烂!

魔都囡
2024-04-25 02:22:15
央行出“新规定”,这4类存款不能再存了,有存款的人要这样处理

央行出“新规定”,这4类存款不能再存了,有存款的人要这样处理

庞明说财经
2024-04-24 16:48:01
重庆:前夫开豪车看儿子,女子打扮精致主动迎接:想复婚

重庆:前夫开豪车看儿子,女子打扮精致主动迎接:想复婚

情感舍论汇
2024-04-22 21:13:07
北京车展首日小米展台人流爆满,发布会雷军公布交付量

北京车展首日小米展台人流爆满,发布会雷军公布交付量

界面新闻
2024-04-25 09:43:02
CBA重磅罚单:周琦肘击停赛2场+罚款10万 莫兰德罚款2万

CBA重磅罚单:周琦肘击停赛2场+罚款10万 莫兰德罚款2万

醉卧浮生
2024-04-24 20:34:31
2024-04-25 14:24:49

科技要闻

雷军:希望小米SU7能成为苹果用户购车首选

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

先涨价再降价,特斯拉“打脸”只用20天?

汽车要闻

这灯效我能看半小时 奥迪Q6L e-tron有备而来

态度原创

亲子
教育
旅游
手机
公开课

亲子要闻

男孩算数算到痛哭流涕,5减4不就是等于0吗?我拿手指算给你看

教育要闻

新航道2023年春季班火热报名中...欢迎资讯当地新航道学校~

旅游要闻

“宝总同款”?布林肯入住上海和平饭店总统套房

手机要闻

传音Infinix GT 20 Pro游戏手机渲染图曝光:天玑 8200 Ultra芯片

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版
×