PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier
一键关注,点亮星标 ⭐️
不错过每日前沿资讯
认知神经科学前沿文献分享
![]()
基本信息:
Title:Multimodal large language models can make context-sensitive hate speech evaluations aligned with human judgement
发表时间:2025.12.15
Journal:Nature Human Behaviour
影响因子:15.9
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
![]()
![]()
引言
社交平台的内容审核(content moderation)长期卡在一个矛盾点:规则需要“统一”,但仇恨言论(hate speech)的含义往往高度依赖语境,即同一个词,在攻击与自嘲、外群体辱骂与群体内部“重新占有”(reclaimed slur)之间,处理逻辑可能完全不同。
传统自动化模型多以“文本片段”做判断,容易把讨论歧视经历、引用他人辱骂、或群体内部用语都误判为违规,反而加重对被针对群体的伤害。
本文把多模态大语言模型(multimodal large language models, MLLMs)拉进更贴近真实审核的场景:给模型一段仇恨言论政策(policy),再让它阅读“截图式”社交媒体帖(包含文字、头像/姓名等身份线索、互动回复、点赞量),用强制二选一的联合实验(conjoint experiment)做“优先送审”选择,并与1,854名人类受试者的判断对齐比较。
![]()
核心结果
更大、更强的多模态大模型(MLLMs)能更“看懂语境”:在给定仇恨言论政策(policy)并结合帖文上下文信息时,模型对“是否应优先送审/处理”的判断与人类更一致。
偏见并未消失:对词汇(lexical)触发与用户人口学线索(demographic cues)的系统性偏差仍普遍存在,且在较小模型上更明显。
视觉身份线索会放大差异:头像/面孔等视觉信息会显著影响部分模型的决策,使不同群体相关内容的处理更不均衡。
提示词能“增强语境敏感”,但无法根治偏差:通过prompting可提升对语境的利用程度,但偏见无法被完全消除。
方法论贡献:联合实验(conjoint experiments)适合用来审计(audit)这类“高度依赖语境”的内容审核AI,能更清晰拆解模型受哪些线索驱动。
![]()
Fig. 1 | Simulated social media posts.
![]()
![]()
Fig. 2 | Effects of post attributes on the moderation decisions.
![]()
Fig. 3 | Differences in the effects of slurs by identity.
![]()
Fig. 4 | Differences in the effects of slurs by identity across prompts.
![]()
Fig. 5 | Effects of identity on moderation decisions by identity cue modality. AMCE
前沿交流|欢迎加入认知神经科学前沿交流群!
![]()
核心图表、方法细节、统计结果与讨论见原文及其拓展数据。
分享人:BQ
审核:PsyBrain 脑心前沿编辑部
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.