网易首页 > 网易号 > 正文 申请入驻

一个MIT博士生把打地鼠玩明白了:AI偏见的新解法

0
分享至

去年夏天,Walter Gerych在实验室里盯着屏幕上的向量空间图,发现了一个让他头疼的规律——每按下一个偏见,另一个偏见就会从别处冒出来。这就像游乐场里的打地鼠游戏,而他和同事们给这个现象起了个名字:"Whac-A-Mole dilemma"(打地鼠困境)。

这个困境困扰着所有试图给视觉语言模型"去偏见"的研究者。Gerych现在是MIT与Worcester Polytechnic Institute、Google合作项目的论文一作,他们刚刚在2026年国际学习表征会议(ICLR)上 acceptance 了一个新方案:WRING。不是换个更大的锤子,而是改变整个游戏的玩法。


为什么皮肤科AI会漏诊黑皮肤患者

先从一个具体的医疗场景说起。

今天的医院和诊所里,皮肤科医生 increasingly 依赖AI模型辅助判断皮肤病变——这是良性痣,还是可能癌变的黑色素瘤?但问题在于:如果模型对特定肤色存在偏见,它可能在关键时刻漏诊高风险患者。

这不是假设。原文明确提到,在高风险的医疗场景中,模型表现的缺陷已经将偏见变成了一个"quintessential safety issue"(典型的安全问题)。

偏见从何而来?通常的讨论集中在训练数据上——数据不平衡、标注有偏、采样偏差。但这篇论文指出了另一个被忽视的源头:模型架构本身。

"模型架构也可能包含并放大偏见",原文写道。这意味着即使给你完美的平衡数据集,偏见仍可能从模型的数学结构中生长出来,并在真实世界部署时产生负面影响。

视觉语言模型(VLMs,即能够同时理解视频、图像、文本等多种数据模态的多模态模型)尤其脆弱。OpenAI的OpenCLIP就是这类模型的代表。它们将图像和文本映射到同一个嵌入空间,通过对比学习建立关联——但这种关联机制恰恰容易捕获并固化社会偏见。

投影去偏:一个越修越漏的补丁

现有的主流解决方案叫"投影去偏"(projection debiasing)。原理听起来很直接:找出嵌入空间中代表偏见的那部分子空间,然后把它"投影"出去——数学上就是切除这个维度,让偏见信息从表征中消失。

但Gerych发现了一个问题。

「当你这样做的时候,你会无意中把所有东西都挤压变形」,他说。这是2023年正式引入AI研究领域的经验观察:打地鼠困境。你敲掉"狗→柯基"的偏见,模型可能突然对"昂贵物品→黑白照片"产生更强的关联。偏见没有被消除,只是转移了阵地。

为什么会这样?投影去偏的本质是在高维向量空间里做几何手术。当你强制移除某个方向的维度时,原本分布在这个方向上的信息必须被压缩到剩余维度中。这种压缩不是无损的——它扭曲了整个表征空间的结构,让原本不相关的偏见维度产生耦合。

更麻烦的是,VLMs的嵌入空间极其复杂。图像和文本的交互不是简单的线性叠加,而是多层非线性变换的结果。在某个层级切除的偏见,可能在更深层以变形的方式复活。

研究团队用一张图展示了这个问题:在应用WRING之前,CLIP模型对"忠诚的狗"这个文本查询,会偏向返回柯基犬的图像;对"昂贵的物品",则偏向返回黑白照片。这些偏见不是孤立的bug,而是嵌入空间几何结构的系统性特征。

WRING:旋转,而不是切除

WRING的全称是"Weighted Rotational DebiasING"(加权旋转去偏)。关键洞察在于:不要切除,要旋转。

投影去偏的问题在于它破坏了表征空间的度量结构。WRING的做法是保留所有维度,但通过旋转变换重新组织它们——让偏见维度与任务相关的维度正交化,同时保持向量间的相对距离关系。

这有点像整理一个混乱的仓库。投影去偏是直接扔掉某些货架,结果其他货架被挤塌了。WRING则是重新规划货架的朝向,让危险品区和日用品区互不干扰,但每个货架本身的容量和位置关系保持不变。

"加权"(Weighted)的部分体现在:不是所有偏见维度都被同等对待。WRING会根据偏见强度的估计,为不同维度分配不同的旋转权重。强偏见维度需要更大的角度调整,弱偏见维度则微调即可。

这种区别对待避免了过度矫正。一个常见的问题是,激进的去偏会损害模型的有用能力——比如如果你把"性别"相关的所有维度都抹除,模型可能连"他/她"的正确指代都搞不清。WRING的加权机制试图在"消除有害偏见"和"保留语义信息"之间找到平衡点。

具体实现上,WRING作用于模型的嵌入层(embeddings),这是一个后处理步骤,不需要重新训练整个模型。这对于已经部署的大型VLMs尤为重要——你可以在不触碰原始权重的情况下,为特定应用场景定制去偏版本。

五个关键设计选择

把WRING拆开来看,有几个值得注意的技术决策:

第一,旋转而非投影的几何直觉。

论文没有明说,但这个选择反映了对表征空间拓扑结构的深刻理解。投影是一种非保距变换(它改变向量长度),而旋转是保距的。在去偏的同时保持嵌入空间的度量性质,对下游任务的稳定性至关重要。

第二,显式的权重学习机制。

WRING不是手工设定旋转角度,而是通过一个轻量级的优化过程学习权重。这使得方法可以适应不同数据集和偏见类型的特性,而不需要为每个新场景重新设计算法。

第三,针对VLMs的多模态特性。

视觉语言模型的独特之处在于图像和文本共享同一个嵌入空间。WRING需要同时处理两种模态的偏见,并考虑它们之间的交互。这比单模态的去偏复杂得多——图像中的肤色偏见可能与文本中的职业偏见产生交叉影响。

第四,保持模型能力的约束条件。

优化目标中明确包含了对原始模型性能的保持项。这不是一个纯粹的"去偏最大化"问题,而是带约束的优化——在偏见减少和准确率维持之间走钢丝。

第五,可解释的中间表征。

旋转后的维度仍然具有语义意义,这与投影后的"黑洞"维度形成对比。研究者可以检查哪些维度被旋转了多少,从而审计去偏过程本身——这在医疗等监管严格的领域是刚需。

为什么是现在?为什么是这个团队?

WRING的出现不是孤立的技术进步,它踩中了几个交汇的趋势。

视觉语言模型正在从研究玩具变成生产工具。OpenCLIP、CLIP、BLIP等模型被集成到搜索引擎、内容审核系统、医疗辅助诊断平台中。当模型的输出直接影响用户看到什么、医生判断什么,偏见就不再是学术 curiosity,而是产品 liability。

同时,监管压力在上升。欧盟AI法案、美国的算法问责倡议,都在要求高风险AI系统的偏见审计和缓解措施。企业需要工具来证明他们的模型是"负责任的"——WRING这类后处理方法提供了一条比重新训练更经济的合规路径。

MIT Jameel Clinic(阿卜杜勒·拉蒂夫·贾米尔机器学习健康诊所)的参与也值得关注。这个机构专注于机器学习在医疗健康中的应用,他们的介入表明WRING的设计考虑了真实的临床部署场景——不是只在ImageNet上跑分漂亮,而是要能在医院的IT环境里稳定运行。

Google的合作则带来了工程规模的视角。WRING需要被证明可以处理亿级别的嵌入,可以在TPU集群上高效计算,可以集成到现有的模型服务管道中。学术论文和工业部署之间的距离,往往比方法本身的创新更难跨越。

还没解决的问题

WRING不是银弹。论文没有声称解决了所有偏见问题,有几个限制值得注意。

首先,WRING仍然需要预先定义"什么是偏见"。这通常通过一组敏感属性(如肤色、性别、年龄)和期望的中立目标来实现。但偏见的定义本身就是 contested 的——谁决定哪些关联是"有害的"?WRING把这个难题外包给了应用层面的设计者。

其次,旋转去偏的效果依赖于嵌入空间的线性结构假设。如果偏见是以高度非线性的方式编码的——比如通过多层注意力机制的复杂交互——那么单层旋转可能无法触及深层偏见。

第三,加权机制的学习需要额外的计算资源。虽然比重新训练便宜,但对于实时性要求极高的应用(如视频流分析),WRING的 overhead 可能仍然不可接受。

最后,也是最根本的:去偏方法的有效性评估本身就有偏见。我们用什么基准测试?谁标注了"无偏见"的黄金标准?WRING在打地鼠游戏中可能赢了这一轮,但游戏的规则本身可能有问题。

对从业者的实际意义

如果你正在构建或部署视觉语言模型,WRING提供了几个 actionable 的 takeaway:

不要只盯着训练数据。模型架构可以是偏见的独立来源,数据清洗解决不了几何结构的问题。

评估去偏方法时,检查它是否引入了新的扭曲。打地鼠困境是真实存在的,单一维度的偏见指标会误导你。

考虑后处理方案的经济性。在大多数商业场景中,重新训练一个大型VLM的成本远高于应用WRING这样的适配层。

为审计做好准备。WRING的可解释中间表征是一个 feature,不是 bug——在监管审查时你会需要它。

最后,保持对"偏见"定义的反思。技术工具只能执行你给定的目标,目标的合理性需要人文和社会科学的输入。

冷幽默

Gerych和他的同事们终于打败了打地鼠——方法是把游戏机整个倾斜45度,让地鼠们滑向一个它们互相抵消的方向。这很聪明,但游乐场老板可能会问:你们确定倾斜后的游戏机还能正常投币吗?以及,那些地鼠真的消失了,还是只是从视野里溜走了,正在某个看不见的维度里继续打洞?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拜仁再见!6000万“顶薪先生”正式同意转会!1.45亿“妖星”来投

拜仁再见!6000万“顶薪先生”正式同意转会!1.45亿“妖星”来投

头狼追球
2026-05-02 11:39:23
世界杯版权谈崩!足联张口要3亿,央视仅出8千万,评论区十分清醒

世界杯版权谈崩!足联张口要3亿,央视仅出8千万,评论区十分清醒

谭谈社会
2026-05-01 23:43:14
一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

大象新闻
2026-05-01 23:50:09
3-0到4-2!湖人4-2淘汰火箭,西部半决赛出炉,马刺大战森林狼

3-0到4-2!湖人4-2淘汰火箭,西部半决赛出炉,马刺大战森林狼

薇说体育
2026-05-02 14:45:59
美国国防部长已下令从德国撤出5000名驻军,撤军工作将在未来6至12个月内完成

美国国防部长已下令从德国撤出5000名驻军,撤军工作将在未来6至12个月内完成

鲁中晨报
2026-05-02 07:55:05
里夫斯:詹姆斯所做的一切简直太疯狂;我没跟东契奇去欧洲治疗

里夫斯:詹姆斯所做的一切简直太疯狂;我没跟东契奇去欧洲治疗

懂球帝
2026-05-02 14:50:10
关于吴石将军!国安部最新披露!

关于吴石将军!国安部最新披露!

雍亲王府
2026-05-01 20:00:07
40岁女人亲口承认:最抵抗不了男人的4种“坏”,越坏越离不开

40岁女人亲口承认:最抵抗不了男人的4种“坏”,越坏越离不开

皓皓情感说
2026-05-02 07:45:03
湖人98-78火箭,4-2晋级!詹姆斯创3大历史纪录,一战看清6个现实

湖人98-78火箭,4-2晋级!詹姆斯创3大历史纪录,一战看清6个现实

毒舌NBA
2026-05-02 12:19:56
耻辱2-4出局,季后赛第1伪强队,一副好牌打得稀烂,8换1交易完败

耻辱2-4出局,季后赛第1伪强队,一副好牌打得稀烂,8换1交易完败

毒舌NBA
2026-05-02 12:52:31
对话传祺 BU 总裁黄坚:改革要上下同欲,积小胜为大胜

对话传祺 BU 总裁黄坚:改革要上下同欲,积小胜为大胜

晚点LatePost
2026-05-01 18:39:39
7-7!吴宜泽第2阶段遭5连鞭后顽强逼平艾伦,袋口僵局1小时创纪录

7-7!吴宜泽第2阶段遭5连鞭后顽强逼平艾伦,袋口僵局1小时创纪录

我爱英超
2026-05-02 06:24:08
吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

杨华评论
2026-05-02 02:40:37
44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

TVB剧评社
2026-05-01 21:24:01
美国最高院最新裁决,川普阵营赢得压倒性胜利

美国最高院最新裁决,川普阵营赢得压倒性胜利

壹家言
2026-05-02 09:21:56
著名汉学家宇文所安逝世,享年79岁,他读过上万首唐诗,娶走13岁直升北大的才女

著名汉学家宇文所安逝世,享年79岁,他读过上万首唐诗,娶走13岁直升北大的才女

极目新闻
2026-05-02 14:08:32
中国划定红线,叫停“洗澡式出海”

中国划定红线,叫停“洗澡式出海”

中国网
2026-05-02 08:35:02
吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

八卦王者
2026-05-01 14:05:38
篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

小鋭有话说
2026-05-02 10:42:33
为何革命卫队不愿意弃核?一场关乎生存、金钱与神权的零和博弈

为何革命卫队不愿意弃核?一场关乎生存、金钱与神权的零和博弈

高博新视野
2026-05-01 07:30:21
2026-05-02 15:07:00
码上闲叙
码上闲叙
有态度网友ytd
3228文章数 37关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

牛弹琴:默茨称美国被"羞辱"后 特朗普的报复马上就到

头条要闻

牛弹琴:默茨称美国被"羞辱"后 特朗普的报复马上就到

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

教育
房产
数码
公开课
军事航空

教育要闻

高考选专业必看!这3大类就业前景最好

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

数码要闻

酷态科CP模块风扇Plus开启预约:可当充电宝使用,179元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对伊战事结束 无限期延长停火

无障碍浏览 进入关怀版