网易首页 > 网易号 > 正文 申请入驻

MIT团队用AI检验AI:AI给出的“最优解”真的公平吗?

0
分享至


(来源:麻省理工科技评论)

AI 正越来越多地被用于辅助高风险场景下的决策。比如一个自主系统可以找出一种电力分配策略,在保持电压稳定的前提下把成本降到最低。

这些由 AI 给出的方案虽然在技术上可能是最优的,它们真的公平吗?如果一个低成本的电力分配策略让条件不佳的社区比高收入地区更容易遭遇停电,这算不算问题?

为了帮助相关方在 AI 系统部署之前就能快速发现潜在的伦理困境,MIT 的研究人员开发了一套自动化评估方法。这套方法的目标是在可量化指标(比如成本或稳定性)与那些定性或主观的价值(比如公平性)之间找到平衡。

该系统把客观评估与用户定义的人类价值观分开处理,使用一个大语言模型作为“人类代理”来捕捉和整合相关方的偏好。

这套自适应框架会挑选出最值得进一步评估的场景,从而简化原本需要耗费大量人力和时间的手工流程。这些测试用例既能展示自动系统与人类价值观高度吻合的情况,也能揭示那些意外偏离伦理标准的情境。

“我们可以给 AI 系统加上很多规则和护栏,但这些防护只能拦住我们事先能想到的那些风险。不能因为 AI 是在这些数据上训练过的,就觉得让它直接上岗就行。我们想做的是找到一种更系统的方法,把那些‘未知的未知’提前挖出来,在坏事发生之前就预判到它。”论文的通讯作者、MIT 航空航天系(AeroAstro)副教授、MIT 信息与决策系统实验室(LIDS)首席研究员范楚楚(Chuchu Fan)说。

论文的第一作者是机械工程系研究生安嘉丽·帕拉沙尔(Anjali Parashar),合著者包括 AeroAstro 博士后 Yingke Li,以及 MIT 和萨博公司(Saab)的其他研究人员。该研究将在国际学习表征大会(ICLR)上发表。



为伦理打分

在电网这样的大型系统里,要全面评估 AI 推荐方案是否符合伦理,兼顾所有目标,是一件特别困难的事。

大多数测试框架依赖预先收集的数据,但涉及主观伦理标准的标注数据往往很难拿到。另外,伦理价值观和 AI 系统本身都在不断变化,基于成文规则或监管文件的静态评估方法需要频繁更新。

范楚楚和她的团队从另一个角度切入这个问题。他们借鉴了自己之前在机器人系统评估方面的工作,开发出一套实验设计框架,专门用来识别那些最有信息量的场景,供人类相关方进一步仔细评估。

这套由两部分组成的系统叫做 SEED-SET(Scalable Experimental Design for System-level Ethical Testing,系统级伦理测试的可扩展实验设计),结合了量化指标与伦理标准。它既能识别出那些既满足可量化要求、又符合人类价值观的场景,也能找出反过来的情况。

“我们不想把所有资源都花在随机评估上。所以关键是让框架聚焦在我们最关心的那些测试用例上,”Yingke Li 说。

SEED-SET 的一个重要优势是:它不需要预先存在的评估数据,而且可以适配多个目标。以一个电网为例,它可能有多个用户群体,比如一个较大的农村社区和一个数据中心。两类用户都希望电力便宜又可靠,但从伦理角度看,他们各自的优先级可能差异很大。

这些伦理标准往往没有明确定义,因此无法用分析方法直接度量。电网运营方想要找到一种最具成本效益的策略,同时尽可能满足所有相关方的主观伦理偏好。

SEED-SET 应对这个挑战的方法是把问题拆成两层,按层级结构处理。第一层是客观模型,评估系统在成本等具体指标上的表现;第二层是主观模型,在客观评估的基础上,考虑相关方的判断,比如他们感受到的公平程度。

“我们方法中客观的那一部分对应的是 AI 系统,主观的那一部分对应的是评估它的用户。通过以层级方式拆解偏好,我们可以用更少的评估次数生成理想的场景,”帕拉沙尔说。



把主观评价编码进来

为了完成主观评估,系统用一个大语言模型来替代人类评估者。研究人员把每个用户群体的偏好编码成自然语言提示词交给模型,大语言模型按照这些指令对两个场景进行比较,根据伦理标准选出更合意的那个。

“一个人类评估者在看过几百甚至几千个场景之后会疲劳,评估也会变得不一致,所以我们用基于大语言模型的策略来代替,”帕拉沙尔解释说。SEED-SET 会用选出的场景来模拟整个系统(在这个例子里就是电力分配策略)。模拟结果又会反过来引导系统去寻找下一个最值得测试的候选场景。

最终,SEED-SET 能智能地筛选出最具代表性的场景,无论是那些同时达标客观指标和伦理标准的场景,还是那些明显偏离的场景。用户可以据此分析 AI 系统的表现,并调整它的策略。

举个例子,SEED-SET 能精准找出那些在用电高峰期优先保障高收入区域、让条件较差的社区更容易停电的电力分配方案。

为了测试 SEED-SET,研究人员对若干真实的自主系统做了评估,包括一个 AI 驱动的电网和一个城市交通调度系统。他们测量了所生成的场景与伦理标准的吻合程度。在相同时间里,该系统生成的最优测试用例数量超过了基准方法的两倍,还发现了许多其他方法忽略的场景。

“当我们改变用户偏好时,SEED-SET 生成的场景集合也会发生明显变化。这说明评估策略对用户的偏好反应灵敏,”帕拉沙尔说。

要验证 SEED-SET 在实际应用中的价值,研究人员还需要开展一项用户研究,看看它生成的场景能不能帮助真实的决策过程。

除了这项用户研究,研究人员还计划探索使用更高效的模型,把这套方法扩展到规模更大、评估标准更多的问题上,比如用来评估大语言模型自己的决策过程。

https://news.mit.edu/2026/evaluating-autonomous-systems-ethics-0402

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
申万宏源:美伊冲突最大冲击已过,市场底与成长风格底同步确立

申万宏源:美伊冲突最大冲击已过,市场底与成长风格底同步确立

每日经济新闻
2026-04-12 08:05:04
中纪委发话了!释放一个重要信号,一个都不放过!

中纪委发话了!释放一个重要信号,一个都不放过!

细说职场
2026-04-11 18:42:12
阴雨何时休?下周天气趋势来了!

阴雨何时休?下周天气趋势来了!

上海静安
2026-04-12 18:35:00
68岁赵本山现身海南悠闲逛街,打扮很潮流!买好几袋奢侈品好惬意

68岁赵本山现身海南悠闲逛街,打扮很潮流!买好几袋奢侈品好惬意

娱乐团长
2026-04-11 15:28:06
000929,申请撤销退市风险警示!

000929,申请撤销退市风险警示!

证券时报e公司
2026-04-12 17:36:43
日媒:44%的访日中国游客资产额超680万元

日媒:44%的访日中国游客资产额超680万元

随波荡漾的漂流瓶
2026-04-11 17:16:26
曝U18男篮核心改名+改年龄参赛!连名带姓全都改 疑似2次改小4岁

曝U18男篮核心改名+改年龄参赛!连名带姓全都改 疑似2次改小4岁

念洲
2026-04-11 22:08:12
46号令来了!国企全面清查,所有人自查照着做就行

46号令来了!国企全面清查,所有人自查照着做就行

奇思妙想生活家
2026-04-12 04:55:26
湖南一男子自带茅台就餐,饮用时感觉味道不对怀疑被调包!民警发现当日服务员连工资都没结就“消失”了

湖南一男子自带茅台就餐,饮用时感觉味道不对怀疑被调包!民警发现当日服务员连工资都没结就“消失”了

大风新闻
2026-04-11 16:08:07
反流量却成了流量密码,莫氏鸡煲老莫:在60岁被迫开始拼命,生日愿望是“店子早点倒闭”

反流量却成了流量密码,莫氏鸡煲老莫:在60岁被迫开始拼命,生日愿望是“店子早点倒闭”

极目新闻
2026-04-12 14:04:06
在刚刚,上午16家公司出现重大利好消息,看看有没有与你相关的个股

在刚刚,上午16家公司出现重大利好消息,看看有没有与你相关的个股

股市皆大事
2026-04-12 11:20:15
胡尔克谈内马尔入选巴西队:如果他配得上,就会代表巴西出战

胡尔克谈内马尔入选巴西队:如果他配得上,就会代表巴西出战

懂球帝
2026-04-12 15:42:03
朝鲜空姐,和想象中的不一样

朝鲜空姐,和想象中的不一样

微微热评
2026-04-12 13:57:10
郑丽文一行参访小米汽车工厂,中国国民党副主席: 对促进两岸交流合作十项新政表示欢迎,呼吁当局不要阻拦,郑丽文一行圆满结束大陆参访,离京返台

郑丽文一行参访小米汽车工厂,中国国民党副主席: 对促进两岸交流合作十项新政表示欢迎,呼吁当局不要阻拦,郑丽文一行圆满结束大陆参访,离京返台

每日经济新闻
2026-04-12 15:42:14
李斌:自研芯片真省钱!

李斌:自研芯片真省钱!

EETOP半导体社区
2026-04-12 12:14:50
卡尼演讲称“每花1加元军费就有70加分流向美国的日子已结束”,现场爆发热烈掌声

卡尼演讲称“每花1加元军费就有70加分流向美国的日子已结束”,现场爆发热烈掌声

环球网资讯
2026-04-12 11:15:00
中央下令严查宅基地!2026年新规执行,每家每户都要注意

中央下令严查宅基地!2026年新规执行,每家每户都要注意

王嚾晓
2026-03-18 23:31:04
亚锦赛收官:国羽2金2银印泰各1银,石宇奇2-0夺生涯亚锦赛首金

亚锦赛收官:国羽2金2银印泰各1银,石宇奇2-0夺生涯亚锦赛首金

求球不落谛
2026-04-12 18:41:05
文章饭店开业大排长队,网友直呼价格亲民

文章饭店开业大排长队,网友直呼价格亲民

映射生活的身影
2026-04-12 15:36:07
外交部公开发声,10字定性郑丽文访问大陆,白岩松的话果真没说错

外交部公开发声,10字定性郑丽文访问大陆,白岩松的话果真没说错

阿纂看事
2026-04-11 15:53:22
2026-04-12 19:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16571文章数 514865关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

女子带5岁女儿和未满1岁儿子用餐 女儿坠亡餐厅赔74万

头条要闻

女子带5岁女儿和未满1岁儿子用餐 女儿坠亡餐厅赔74万

体育要闻

见证历史!五大联赛首位女性主教练诞生

娱乐要闻

46岁赵达官宣结婚!曾与殷桃谈婚论嫁

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
家居
数码
公开课
军事航空

亲子要闻

这孩子是啥啥都看不上啊

家居要闻

复古风格 自然简约

数码要闻

破壁机哪个牌子好?安全无毒材质是重点,揭秘TOP10家用哪种好

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版