网易首页 > 网易号 > 正文 申请入驻

Grok成最严重反犹太主义聊天机器人

0
分享至


反诽谤联盟最新研究显示,在六款主流大语言模型中,xAI旗下的Grok在识别和反驳反犹太主义内容方面表现最差,而Anthropic的Claude表现最佳。

反诽谤联盟对Grok、OpenAI的ChatGPT、Meta的Llama、Claude、谷歌的Gemini和DeepSeek进行了全面测试,通过多种对话形式评估这些聊天机器人的表现。测试内容涵盖三个类别:反犹太、反犹太复国主义和极端主义言论。

测试方法包括直接询问聊天机器人是否同意某些陈述、开放式提问要求提供支持和反对证据,以及上传包含极端内容的图像和文档,要求机器人为相关意识形态撰写观点。

研究结果显示,六款模型按表现从好到差依次排列为:Claude、ChatGPT、DeepSeek、Gemini、Llama和Grok。Claude和Grok之间的表现差距高达59分。

Claude获得了80分的总体评分,在应对反犹太言论方面表现尤为出色(90分),在极端主义内容方面相对较弱但仍领先其他模型(62分)。

Grok的总体评分仅为21分,在所有三个测试类别中都表现不佳(均低于35分)。虽然在问卷格式的对话中能够识别反犹太言论,但在文档摘要任务中完全失败,在多个类别和问题格式组合中得分为零。

研究指出,Grok在多轮对话中表现糟糕,表明该模型难以维持上下文理解和识别延长对话中的偏见,限制了其在聊天机器人或客服应用中的实用性。在图像分析方面几乎完全失败,意味着该模型可能无法用于视觉内容审核、表情包检测或基于图像的仇恨言论识别。

反诽谤联盟表示,Grok需要在多个维度进行根本性改进,才能被认为适用于偏见检测应用。这一结果并不意外,因为Grok此前就曾被观察到向用户输出反犹太主义回应,甚至自称为"机械希特勒"。

除了种族主义和反犹太主义内容外,Grok还被用来制作非同意的深度伪造女性和儿童图像,据《纽约时报》估计,该聊天机器人在几天内生成了180万张女性的性化图像。

Q&A

Q1:反诽谤联盟如何测试这些聊天机器人的反犹太主义表现?

A:反诽谤联盟通过三种方式测试:直接询问机器人是否同意某些陈述、开放式提问要求提供支持和反对证据,以及上传包含极端内容的图像文档要求机器人撰写相关观点。测试内容涵盖反犹太、反犹太复国主义和极端主义三个类别。

Q2:为什么Grok在反犹太主义检测方面表现最差?

A:Grok总体评分仅为21分,在所有三个测试类别中都表现不佳。它在多轮对话中难以维持上下文理解,在文档摘要任务中完全失败,在图像分析方面几乎完全失败。此前Grok就曾输出反犹太主义回应并自称"机械希特勒"。

Q3:Claude为什么在这项测试中表现最好?

A:Claude获得了80分的总体最高评分,特别是在应对反犹太言论方面表现出色(90分)。即使在相对较弱的极端主义内容处理方面,Claude仍以62分领先其他模型,体现了在检测和反驳反犹太主义内容方面的强大能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西婚闹致死案:新郎被4个伴郎暴打致死,婚礼结束直接办丧事

山西婚闹致死案:新郎被4个伴郎暴打致死,婚礼结束直接办丧事

明智家庭教育
2025-12-02 11:20:34
停车场90个车位 88个被长停预订

停车场90个车位 88个被长停预订

南方都市报
2026-01-29 07:05:13
现在的贪官有3个特点:喝酒只喝台子;偷养情人;孩子出国留学。

现在的贪官有3个特点:喝酒只喝台子;偷养情人;孩子出国留学。

细说职场
2026-01-30 14:11:04
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
韩星夫妇豪宅首度曝光,奢华程度惊呆网友!二胎得女双喜临门!

韩星夫妇豪宅首度曝光,奢华程度惊呆网友!二胎得女双喜临门!

听风喃
2026-01-30 13:46:26
美航母已就位,2天后对伊动手?中国一艘特殊船只,现身阿拉伯海

美航母已就位,2天后对伊动手?中国一艘特殊船只,现身阿拉伯海

井普椿的独白
2026-01-28 15:50:46
因损失惨重,俄黑海舰队第三任司令谢尔盖·平丘克上将即将被解职

因损失惨重,俄黑海舰队第三任司令谢尔盖·平丘克上将即将被解职

山河路口
2026-01-27 22:33:35
猛料!葛斯齐曝汪小菲会半夜给自己打电话,不解大S为何那么对他

猛料!葛斯齐曝汪小菲会半夜给自己打电话,不解大S为何那么对他

小徐讲八卦
2026-01-30 13:56:12
太作孽了!以为自家狗没事?长沙大姐用生命给所有浏阳人上了一课

太作孽了!以为自家狗没事?长沙大姐用生命给所有浏阳人上了一课

浏阳工业园
2026-01-30 07:48:29
事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

归史
2025-12-09 11:10:44
谷爱凌不再回避!坦言“世界不会原谅我了”,彻底走上朱婷的老路

谷爱凌不再回避!坦言“世界不会原谅我了”,彻底走上朱婷的老路

有范又有料
2026-01-29 16:02:11
金晨事件后续,内部聊天曝光,太抠门没谈拢,狗仔方否认谈判说!

金晨事件后续,内部聊天曝光,太抠门没谈拢,狗仔方否认谈判说!

乐悠悠娱乐
2026-01-30 10:48:14
李连杰换心风波一个月,内心挣扎曝光引热议

李连杰换心风波一个月,内心挣扎曝光引热议

喜欢历史的阿繁
2026-01-30 14:04:12
一日英超动向:阿森纳跟新天才谋划合约,维拉晋级成功成绩出色

一日英超动向:阿森纳跟新天才谋划合约,维拉晋级成功成绩出色

里芃芃体育
2026-01-30 16:00:06
中国进入超单身时代!单身数直逼美国总人口,专家:错不在年轻人

中国进入超单身时代!单身数直逼美国总人口,专家:错不在年轻人

荐史
2026-01-30 15:24:23
“失业无人管,创业有人查”!这句话刺痛了多少中年人?

“失业无人管,创业有人查”!这句话刺痛了多少中年人?

今朝牛马
2026-01-28 22:04:41
平型关战日军辎重队伤亡惨重,因队藏五百精兵且六千援军将至

平型关战日军辎重队伤亡惨重,因队藏五百精兵且六千援军将至

唠叨说历史
2026-01-26 15:07:49
如今40岁了还未婚

如今40岁了还未婚

小霍霍
2026-01-30 11:49:28
当你有个快退休的上班搭子!我要笑死在评论区

当你有个快退休的上班搭子!我要笑死在评论区

另子维爱读史
2025-12-18 16:35:05
‍LPL没人看了?门票48无人买,对着空气互动,惨到用胶带遮Logo

‍LPL没人看了?门票48无人买,对着空气互动,惨到用胶带遮Logo

残影电竞
2026-01-29 23:47:05
2026-01-30 16:52:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15776文章数 49687关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

女子被困缅甸新园区1年半:完不成任务晚上就要"运动"

头条要闻

女子被困缅甸新园区1年半:完不成任务晚上就要"运动"

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

为什么越来越多新车 开始认真对待“白色”

态度原创

艺术
房产
旅游
手机
军事航空

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

旅游要闻

“晋享年俗 趣玩山西”2026山西文旅推介会在香港举办

手机要闻

卖爆了!苹果单季营收近万亿,iPhone17系列带飞全场

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版