网易首页 > 网易科技 > 网易科技 > 正文

GPT-4发布前,OpenAI曾雇各行专家开展“对抗性测试”以规避歧视等问题

0
分享至

4月17日消息,人工智能初创企业OpenAI在发布大型语言模型GPT-4之前,雇佣各行各业的专家组成“蓝军”团队,对模型可能会出现哪些问题进行“对抗性测试”。专家们提出各种探索性或危险问题,测试人工智能如何进行回应;OpenAI将用这些发现重新训练GPT-4并解决问题。

在安德鲁·怀特(Andrew White)获得权限调用人工智能聊天机器人背后的新模型GPT-4后,他利用其提出了一种全新的神经毒剂。

作为罗切斯特大学的化学工程教授,怀特是OpenAI去年聘请的50名学者和专家之一,他们共同组成了OpenAI的“蓝军”团队。在六个月的时间里,“蓝军”成员将对新模型进行“定性探测和对抗性测试”,看能否攻破GPT-4。

怀特表示,他使用GPT-4提出一种可以用作化学毒剂的化合物,还引入诸如科学论文和化学品制造商名目等能为新语言模型提供信息来源的各种“插件”。结果人工智能聊天机器人甚至找到了地方来制作这种化学毒剂。

怀特说:“我认为人工智能将为每个人都带来更快更准确开展化学实验的工具。”“但也有人们会用人工智能做危险化学实验的风险……现在这种情况确实存在。”

引入“蓝军测试”的做法让OpenAI能确保,在GPT-4发布时不会出现这种后果。

“蓝军测试”的目的是为了打消人们认为在社会上部署强大人工智能系统存在危险的担忧。“蓝军”团队的工作就是提出各种探索性或危险问题,测试人工智能如何进行回应。

OpenAI想要知道新模型对不良问题会做出何种反应。因此,“蓝军”团队测试了谎言、语言操纵和危险科学常识等问题。他们还研究了新模型在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的可能性。

GPT-4“蓝军”团队来自各行各业,有学者、教师、律师、风险分析师和安全研究人员,主要工作地点在美国和欧洲。

他们将发现反馈给OpenAI, OpenAI在公开发布GPT-4之前,用团队成员的发现结果来重新训练GPT-4并解决问题。在几个月的时间里,成员们每人会花费10到40个小时的时间来测试新模型。多位受访者表示,自己的时薪约为100美元。

很多“蓝军”团队成员都担心大型语言模型的快速发展,更担心通过各种插件与外部知识源连接起来的风险。

“现在系统是被冻结了,这意味着它不再学习,也不再有记忆,”GPT-4“蓝军”成员、瓦伦西亚人工智能研究所教授何塞·埃尔南德斯-奥拉洛(José Hernández-Orallo)说。“但如果我们用它来上网呢?这可能是一个与全世界相连的非常强大系统。”

OpenAI表示,公司非常重视安全性,在发布前会对各种插件进行测试。而且随着越来越多的人使用GPT-4,OpenAI将定期对模型进行更新。

技术和人权研究员罗亚·帕克扎德(Roya Pakzad)使用英语和波斯语问题来测试GPT-4模型在性别、种族和宗教方面是否存在偏见。

帕克扎德发现,即便更新后,即使在后来更新的版本中,GPT-4也有对边缘化社区的明显刻板印象。

她还发现,在用波斯语问题测试模型时,聊天机器人用编造信息回答问题的“幻觉”现象更严重。与英语相比,机器人用波斯语虚构的名字、数字和事件更多。

帕克扎德说:“我担心语言多样性和语言背后的文化可能会衰减。”

常驻内罗毕的律师博鲁·戈洛(Boru Gollo)是唯一一位来自非洲的测试者,他也注意到新模型带有歧视性语气。“在我测试这个模型的时候,它就像一个白人在跟我说话,”戈洛说。“如果你问到某个特定群体,它会给你一个有偏见的观点或非常有偏见的答案。”OpenAI也承认GPT-4仍然存在偏见。

从安全角度评估模型的“蓝军”成员则对新模型安全性有着不同的看法。来自美国外交关系委员会的研究员劳伦·卡恩(Lauren Kahn)表示,当她开始研究这种技术是否有可能被用于网络攻击时,表示“没想到它会如此详细,以至于进行微调就可以实施”。然而卡恩和其他测试人员发现,随着时间推移,新模型的回应变得相当安全。OpenAI表示,在GPT-4发布之前,公司对其进行了有关拒绝恶意网络安全请求的训练。

“蓝军”的许多成员表示,OpenAI在发布前已经做了严格安全评估。卡耐基梅隆大学语言模型毒性研究专家马丁·萨普(Maarten Sap)说:“他们在消除系统中明显毒性方面做得相当不错。”

自上线ChatGPT以来,OpenAI也受到多方批评,有技术道德组织向美国联邦贸易委员会(FTC)投诉称,GPT-4“有偏见、具有欺骗性,对隐私和公共安全构成威胁”。

最近,OpenAI还推出了名为ChatGPT插件的功能,Expedia、OpenTable和Instacart等合作伙伴应用程序可以通过这一功能让ChatGPT访问他们的服务,允许其代表人类用户订购商品。

“蓝军”团队的人工智能安全专家丹·亨德里克斯(Dan Hendrycks)表示,这种插件可能会让人类自己成了“局外人”。

“如果聊天机器人可以把你的私人信息发布到网上,访问你的银行账户,或者派人到你家里去,你会怎么想?”亨德里克斯说。“总的来说,在我们让人工智能掌握网络力量之前,我们需要更强有力的安全评估。”

“蓝军”成员还警告说,OpenAI不能仅仅因为软件实时响应就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟·弗雷斯(Heather Frase)还对GPT-4是否会协助犯罪行为进行了测试。她说,随着越来越多的人使用这项技术,风险将继续增加。

她说:“你做实际运行测试的原因是,一旦用到真实环境中,它们的表现就不同了。她认为,应该开发公共系统来报告大型语言模型引发的各类事件,类似于网络安全或消费者欺诈报告系统。

劳动经济学家兼研究员莎拉·金斯利(Sara Kingsley)建议,最好的解决办法是像食品包装上的“营养标签”那样,直接说明危害和风险。

她说:“关键是要有一个框架,知道经常出现的问题是什么,这样你就可以有一个安全阀。”“这就是为什么我说工作永远做不完。”(辰辰)

延伸阅读
相关推荐
热点推荐
生涯第7次月最佳!东契奇场均37+8+7拿奖 还获月最佳防守球员提名

生涯第7次月最佳!东契奇场均37+8+7拿奖 还获月最佳防守球员提名

罗说NBA
2026-04-03 05:47:57
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
4种蔬菜已被列入致癌名单,吃多了会致癌?这些才真的要少吃!

4种蔬菜已被列入致癌名单,吃多了会致癌?这些才真的要少吃!

垚垚分享健康
2026-04-02 17:36:32
美媒列出最富有的5位运动员:詹皇20亿第4,C罗25亿第3,榜首45亿

美媒列出最富有的5位运动员:詹皇20亿第4,C罗25亿第3,榜首45亿

你的篮球频道
2026-04-02 11:19:21
童瑶其实挺真实的,明明一直在健身,小腹还是没法完全平坦

童瑶其实挺真实的,明明一直在健身,小腹还是没法完全平坦

小光侃娱乐
2026-04-01 13:15:08
突然开始长跑的中年人,十个里面就有6个阳痿

突然开始长跑的中年人,十个里面就有6个阳痿

beebee
2026-04-02 11:06:47
休女一句大实话:出轨率高的女人,不看长相,大多有这3个特征

休女一句大实话:出轨率高的女人,不看长相,大多有这3个特征

荷兰豆爱健康
2026-03-20 10:20:17
尺度大开!好莱坞连出两部动作爽片,底层直接反杀权贵

尺度大开!好莱坞连出两部动作爽片,底层直接反杀权贵

桃桃淘电影
2026-04-02 10:00:09
如果祖国统一了,谁最后有可能当省长,这5位候选人你最中意谁?

如果祖国统一了,谁最后有可能当省长,这5位候选人你最中意谁?

原来仙女不讲理
2026-02-13 12:37:30
伊朗有救了?一架专机降落北京,王毅表明态度,替美承担部分责任

伊朗有救了?一架专机降落北京,王毅表明态度,替美承担部分责任

羽逸地之光
2026-04-03 09:50:32
世界杯战报:0-4惨败仍不输阵,德乒男单两连败,8强小莫VS松岛

世界杯战报:0-4惨败仍不输阵,德乒男单两连败,8强小莫VS松岛

求球不落谛
2026-04-02 20:02:01
娶个日本老婆有多爽?兄弟晒婚礼现场和为国献身过程:评论区男同胞眼馋坏了

娶个日本老婆有多爽?兄弟晒婚礼现场和为国献身过程:评论区男同胞眼馋坏了

经典段子
2026-04-02 22:41:28
事态严重了,中方接到日媒消息,日本远导锁定东海,俄已选边站

事态严重了,中方接到日媒消息,日本远导锁定东海,俄已选边站

阿郎娱乐
2026-04-03 06:15:18
提醒:肺癌早期不是咳嗽,而是身上出现这5大异常,你一定要注意

提醒:肺癌早期不是咳嗽,而是身上出现这5大异常,你一定要注意

健康之光
2026-04-02 22:35:03
国足两战稳中求变,邵佳一的改革从让每个人踢舒服开始

国足两战稳中求变,邵佳一的改革从让每个人踢舒服开始

懂球帝
2026-04-02 15:02:14
张纪中刚塌!陈思诚片场大搞选妃,圈内人实锤:陪睡都算入门级

张纪中刚塌!陈思诚片场大搞选妃,圈内人实锤:陪睡都算入门级

橙星文娱
2026-04-02 14:45:53
上海这天,何超莲真空上阵,张钧甯瘦成骷髅,范晓萱一身黑好惊悚

上海这天,何超莲真空上阵,张钧甯瘦成骷髅,范晓萱一身黑好惊悚

落雪听梅a
2026-04-02 11:53:43
警惕!含大量硼砂的食物就在身边,很多人天天买

警惕!含大量硼砂的食物就在身边,很多人天天买

江江食研社
2026-04-02 19:49:03
古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

唠叨说历史
2026-03-31 14:25:43
外省逃犯流窜至杭州,骑自行车混入早高峰人群,两架无人机全程跟随,不到一小时被民警在大厦堵截抓获!滨江警方两天内抓获两名外省逃犯

外省逃犯流窜至杭州,骑自行车混入早高峰人群,两架无人机全程跟随,不到一小时被民警在大厦堵截抓获!滨江警方两天内抓获两名外省逃犯

极目新闻
2026-04-02 18:54:58
2026-04-03 10:24:49

科技要闻

SpaceX冲刺2万亿美元估值,马斯克野心太大

头条要闻

专家:伊朗导弹数量足够维持反击一到两周

头条要闻

专家:伊朗导弹数量足够维持反击一到两周

体育要闻

邵佳一的改革,从让每个人踢舒服开始

娱乐要闻

《浪姐》人气榜出炉!曾沛慈断层第一

财经要闻

全球石油危机或将蔓延

汽车要闻

轴距2米7/后排能跷腿 试驾后驱小车QQ3 EV

态度原创

本地
游戏
房产
艺术
公开课

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

《红色沙漠》BOSS战引玩家众怒:设计的糟糕且无趣!

房产要闻

9000亩供地计划出炉!三亚楼市,格局大变!

艺术要闻

马英九风波再引热议,郑丽文力挺萧旭岑,书法作品遭吐槽!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×