网易首页 > 网易号 > 正文 申请入驻

NHB | 多模态大模型做“仇恨言论”判定:更懂语境,也更难摆脱偏见

0
分享至

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注,点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享


基本信息:

Title:Multimodal large language models can make context-sensitive hate speech evaluations aligned with human judgement

发表时间:2025.12.15

Journal:Nature Human Behaviour

影响因子:15.9

获取原文:

  1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本



引言

社交平台的内容审核(content moderation)长期卡在一个矛盾点:规则需要“统一”但仇恨言论(hate speech)的含义往往高度依赖语境,即同一个词,在攻击与自嘲、外群体辱骂与群体内部“重新占有”(reclaimed slur)之间,处理逻辑可能完全不同。

传统自动化模型多以“文本片段”做判断,容易把讨论歧视经历、引用他人辱骂、或群体内部用语都误判为违规,反而加重对被针对群体的伤害。

本文把多模态大语言模型(multimodal large language models, MLLMs)拉进更贴近真实审核的场景:给模型一段仇恨言论政策(policy),再让它阅读“截图式”社交媒体帖(包含文字、头像/姓名等身份线索、互动回复、点赞量),用强制二选一的联合实验(conjoint experiment)做“优先送审”选择,并与1,854名人类受试者的判断对齐比较。


核心结果

更大、更强的多模态大模型(MLLMs)能更“看懂语境”:在给定仇恨言论政策(policy)并结合帖文上下文信息时,模型对“是否应优先送审/处理”的判断与人类更一致。

偏见并未消失:对词汇(lexical)触发与用户人口学线索(demographic cues)的系统性偏差仍普遍存在,且在较小模型上更明显。

视觉身份线索会放大差异:头像/面孔等视觉信息会显著影响部分模型的决策,使不同群体相关内容的处理更不均衡。

提示词能“增强语境敏感”,但无法根治偏差:通过prompting可提升对语境的利用程度,但偏见无法被完全消除。

方法论贡献:联合实验(conjoint experiments)适合用来审计(audit)这类“高度依赖语境”的内容审核AI,能更清晰拆解模型受哪些线索驱动。


Fig. 1 | Simulated social media posts.



Fig. 2 | Effects of post attributes on the moderation decisions.


Fig. 3 | Differences in the effects of slurs by identity.


Fig. 4 | Differences in the effects of slurs by identity across prompts.


Fig. 5 | Effects of identity on moderation decisions by identity cue modality. AMCE

前沿交流|欢迎加入认知神经科学前沿交流群!


核心图表、方法细节、统计结果与讨论见原文及其拓展数据。

分享人:BQ

审核:PsyBrain 脑心前沿编辑部

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
父亲是中国人,母亲是短跑强国的黑人,球员朱正加入男篮成功落户

父亲是中国人,母亲是短跑强国的黑人,球员朱正加入男篮成功落户

以茶带书
2026-02-25 19:48:32
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
欧洲天然气价格大涨,泰国暂停石油出口!部分预测认为,金价可能达到每盎司8000至8500美元

欧洲天然气价格大涨,泰国暂停石油出口!部分预测认为,金价可能达到每盎司8000至8500美元

都市快报橙柿互动
2026-03-02 21:23:40
曾黎与男友王子鸣澳门祈福,50岁状态惊艳,相处模式甜成老夫老妻

曾黎与男友王子鸣澳门祈福,50岁状态惊艳,相处模式甜成老夫老妻

阿纂看事
2026-03-02 15:14:39
中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

比利
2025-11-29 18:49:51
2026暑假档:周星驰和贾玲对轰,陈思诚手握王炸,3部动画有爆相

2026暑假档:周星驰和贾玲对轰,陈思诚手握王炸,3部动画有爆相

丁丁鲤史纪
2026-02-28 18:06:56
阿娇的瓜又炸了,聊天记录曝光,颠覆想象

阿娇的瓜又炸了,聊天记录曝光,颠覆想象

听风听你
2024-12-25 22:41:20
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

通文知史
2026-02-26 22:00:04
玄学真相:凡事“反着来”,你就赢了——这才是人生最高级的破局之道

玄学真相:凡事“反着来”,你就赢了——这才是人生最高级的破局之道

青苹果sht
2026-02-27 06:28:52
黄巢兵败被杀,10余名姬妾被俘,唐僖宗报复有多狠?史官都不敢写

黄巢兵败被杀,10余名姬妾被俘,唐僖宗报复有多狠?史官都不敢写

掠影后有感
2026-03-01 10:09:20
苹果发布iPhone 17e,起售价4499元

苹果发布iPhone 17e,起售价4499元

澎湃新闻
2026-03-02 22:26:26
街头已大量出现,不要踩!不要踩!

街头已大量出现,不要踩!不要踩!

南国今报
2026-03-01 20:00:00
椰树集团再陷低俗营销风波,被监管部门约谈

椰树集团再陷低俗营销风波,被监管部门约谈

界面新闻
2026-03-02 17:03:00
记者:经纪人三年前许诺谢什科会加盟,曼联以为他只是开玩笑

记者:经纪人三年前许诺谢什科会加盟,曼联以为他只是开玩笑

懂球帝
2026-03-03 00:25:10
不打伊朗了?美国怕弹药耗光,赖清德收到通报,两岸统一或迎良机

不打伊朗了?美国怕弹药耗光,赖清德收到通报,两岸统一或迎良机

谢鵑解说
2026-03-03 06:43:04
张维伊难以承担董璇与小酒窝奢华消费,三亚之行显现真相

张维伊难以承担董璇与小酒窝奢华消费,三亚之行显现真相

动物奇奇怪怪
2026-03-01 20:54:36
受美伊以冲突影响 中国男篮8月赛程扑朔迷离

受美伊以冲突影响 中国男篮8月赛程扑朔迷离

体坛周报
2026-03-02 13:57:38
特朗普完全没料到,伊朗不按中国战术出牌,挨打最惨的并非以色列

特朗普完全没料到,伊朗不按中国战术出牌,挨打最惨的并非以色列

夜寒兮月孤静
2026-03-03 03:39:56
伊朗开展“真实承诺-4”行动第13轮攻击

伊朗开展“真实承诺-4”行动第13轮攻击

环球网资讯
2026-03-03 05:58:59
国际油价跳涨,黄金、白银直线拉升!伊朗:反击已造成560名美军伤亡

国际油价跳涨,黄金、白银直线拉升!伊朗:反击已造成560名美军伤亡

每日经济新闻
2026-03-02 10:56:32
2026-03-03 08:44:49
PsyBrain脑心前沿
PsyBrain脑心前沿
追踪脑科学新动态,聚焦认知与神经新研究
165文章数 11关注度
往期回顾 全部

科技要闻

苹果iPhone17e发布:4499元起 升级A19芯片

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

体育要闻

伯纳乌8万人暴怒!高呼78岁老佛爷下课

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

霍尔木兹海峡近乎停摆 布油直逼80美元

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

本地
家居
教育
房产
军事航空

本地新闻

津南好·四时总相宜

家居要闻

万物互联 享科技福祉

教育要闻

毕业大游戏-谭剑-2026年3月2日 (游戏AI设计第1次课第1节)

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版