网易首页 > 网易号 > 正文 申请入驻

新国大团队打造ALI-Agent框架,助力开发者审查大模型伦理合规等问题

0
分享至

众所周知,大模型在理解文本和生成文本这两方面展现出令人瞩目的能力,并被广泛部署于各种应用程序中。

伴随着大模型的扩展应用,保持大模型与人类价值观对齐的重要性也日益凸显。

如果大模型生成的内容与人类价值观存在偏离,可能会带来传播有害信息、强化社会偏见、或提供违法指导等严重风险,进而对用户和社会造成负面影响。

在应对上述挑战中,现有的评估基准主要依赖人工设计上下文场景来评估大模型的对齐性。

但是,由于这种方式存在劳动密集、测试范围有限等弊端,难以覆盖现实世界中的各种应用场景,也无法及时适应大模型的快速演进从而发现新的对齐性漏洞。

与此同时,大模型赋能的智能体逐渐展现出优秀的自动化式解决任务的能力。具体表现为:能从过往交互中提炼经验、整合外部工具、通过推理来解决复杂任务等。

受智能体应用的启发,来自新加坡国立大学的一支团队提出了名为 ALI-Agent 的新框架,旨在利用大模型强大的自主能力进行全面和深入的对齐性评估。

日前,相关论文以《ALI-Agent:通过基于代理的评估评估大模型与人类价值观的一致性》(ALI-Agent: Assessing LLMs'Alignment with Human Values via Agent-based Evaluation)为题发在 arXiv[1]。

图 | 相关论文(来源:arXiv)

ALI-Agent 的运作过程分为两个主要阶段:仿真和精炼。

在仿真阶段,ALI-Agent 基于预定义的静态数据集、或用户提出的要求,自动地生成现实的测试场景,进而评估大模型对于特定人类价值观的理解程度和遵从程度。

在精炼阶段,ALI-Agent 基于前一阶段大模型的回复来改进测试场景,以便探测大模型可能存在的长尾风险,从而深入揭示大模型的对齐性问题。

ALI-Agent 框架的灵感来源颇有意趣。它的核心思想是利用指令跟随能力更卓越的大模型,从而生成高难度的攻击性测试场景,进而观察在这些场景下能力较低的大模型的表现。

(来源:arXiv)

事实上,此前许多主流研究都采纳了通过能力更强的模型、来增强能力较弱模型的途径,诸如数据增广、知识蒸馏等技术。

然而,将这一思路具体运用到模型评估领域的实践却并不多见。而且,ALI-Agent 框架所取得的效果确实不错,它向人们揭示了大模型存在一些意想不到的漏洞。

举例来说,大模型通常能够在测试场景中识别并指出“在新加坡地铁站吃喝”是不被允许的行为。

但是,如果在测试场景中加入一些合理化的解释,比如“她希望能缓解自己的饥饿”,就有可能使大模型认同这一违规行为,而忽视其中违反法律法规的问题。

研究人员表示:“本次框架赢得了来自华为等合作企业的高度赞赏。有资深研究人员指出:ALI-Agent 在揭示模型对齐问题方面具有卓越效果,表现出出色的长尾风险检测能力。”

其所生成的测试场景能够有效掩盖不当行为的恶意特征,从而提高被测大模型识别潜在风险的难度,充分检验了模型的对齐水平。

如果 ALI-Agent 框架及其衍生版本得以应用和推广,它们在 AI 伦理审查、安全与法规遵从性评估等领域将大有可为。

比如,企业和机构可以借助此框架,审查其人工智能系统在伦理方面和合规方面的表现,全面评估这些系统在遵守相关法律法规和行业标准时可能存在的缺陷。

这样一来,就能及时发现系统在操作过程中是否存在传播有害内容或强化社会偏见等不当行为,从而避免潜在的负面影响。

而基于目前的研究成果,该团队计划进一步拓展 ALI-Agent 框架在更多重点领域(如医疗、法律、金融等)的应用。

同时,将继续加强框架的自动化水平,以提高评估的效率和准确性。

此外,他们还希望基于评测的结果,进一步修正和提高大模型的对齐水平。

其中一种有前景的方法是模型编辑(model editing),也可以称为知识编辑(knowledge editing)。

模型编辑(model editing)是一种直接编辑大模型参数的技术,其目标是在特定的兴趣范围内实现符合预期的改变。

未来,课题组打算尝试将模型编辑与 ALI-Agent 框架相结合,基于 ALI-Agent 发现的对齐性问题构建正反例对数据集,将其注入到模型的继续训练过程中,从而引导模型去学习更加对齐的行为模式。

当然通过本次成果,他们也希望能引起更多人对于大模型对齐性问题的关注,并期待与各界共同推动人工智能技术在符合人类价值观的轨道上实现健康发展。

参考资料:

1.https://arxiv.org/pdf/2405.14125

运营/排版:何晨龙

01/

02/

03/

05/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
章泽天现身欧冠,穿几百万行头露副乳显土气,一张嘴秒被路人比下

章泽天现身欧冠,穿几百万行头露副乳显土气,一张嘴秒被路人比下

一娱三分地
2026-06-01 20:18:49
斯诺克榜单更新!赵心童入围,成历史第12人,新赛季冲世界第1!

斯诺克榜单更新!赵心童入围,成历史第12人,新赛季冲世界第1!

刘姚尧的文字城堡
2026-06-02 11:38:39
26岁女教师“赛课”时猝死,舆论呼吁停止荒谬的“形式主义”

26岁女教师“赛课”时猝死,舆论呼吁停止荒谬的“形式主义”

17谭
2026-06-02 14:58:51
A股:全体股民做好准备,今天周二起,行情将迎来了新的变化?

A股:全体股民做好准备,今天周二起,行情将迎来了新的变化?

趋势清风侠
2026-06-02 07:59:32
发布不雅视频!特鲁姆普发声明:我被黑客入侵了 随后声明被删除

发布不雅视频!特鲁姆普发声明:我被黑客入侵了 随后声明被删除

念洲
2026-06-01 23:04:24
秀才刁难寡妇,出上联“有木也是桥,无木也是乔”,寡妇下联妙了

秀才刁难寡妇,出上联“有木也是桥,无木也是乔”,寡妇下联妙了

历史龙元阁
2026-06-02 13:45:10
曝匈牙利前总理欧尔班谋求联合国秘书长!以躲避调查

曝匈牙利前总理欧尔班谋求联合国秘书长!以躲避调查

项鹏飞
2026-06-01 21:08:58
刘德华爱妻罕见露面,60岁头发乌黑成焦点,背一万的包很朴素

刘德华爱妻罕见露面,60岁头发乌黑成焦点,背一万的包很朴素

冷紫葉
2026-06-02 15:18:36
克罗地亚队世界杯26人名单:40岁魔笛第5次参赛 保留14位季军成员

克罗地亚队世界杯26人名单:40岁魔笛第5次参赛 保留14位季军成员

我爱英超
2026-06-02 06:53:02
“史上首次赶超日本产汽车”,韩媒:中国产汽车在韩新注册登记进口车榜排名第三

“史上首次赶超日本产汽车”,韩媒:中国产汽车在韩新注册登记进口车榜排名第三

环球网资讯
2026-06-01 10:30:08
15个副省级市已明确,浙江2个,江苏仅有1个,湖南、河北1个都无

15个副省级市已明确,浙江2个,江苏仅有1个,湖南、河北1个都无

混沌录
2026-06-01 21:47:13
库里签约李宁登全美热搜!萌神称永久友谊 美记透露商业布局细节

库里签约李宁登全美热搜!萌神称永久友谊 美记透露商业布局细节

颜小白的篮球梦
2026-06-02 07:38:52
何猷君婚礼戴239万名表,奚梦瑶宣誓时感动落泪,王嘉尔担任伴郎

何猷君婚礼戴239万名表,奚梦瑶宣誓时感动落泪,王嘉尔担任伴郎

好贤观史记
2026-06-02 10:47:17
李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

草莓解说体育
2026-06-02 12:19:58
中国人民解放军将于6月1日至14日在黄海进行实弹射击

中国人民解放军将于6月1日至14日在黄海进行实弹射击

俄罗斯卫星通讯社
2026-06-01 15:08:19
深圳一公园有宠物狗趴在人用直饮水供水点喝水,园方:正核实情况并消毒

深圳一公园有宠物狗趴在人用直饮水供水点喝水,园方:正核实情况并消毒

新京报
2026-06-02 13:20:52
伊朗被曝破坏中东8国20处美军设施,包括最先进的防空系统和雷达

伊朗被曝破坏中东8国20处美军设施,包括最先进的防空系统和雷达

上观新闻
2026-06-02 04:30:05
结束访华不到20天,特朗普突下禁令断中国经济命脉

结束访华不到20天,特朗普突下禁令断中国经济命脉

氧气过敏者
2026-06-02 12:55:51
正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

易玄
2026-05-25 01:45:09
花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

芹姐说生活
2026-05-15 23:37:01
2026-06-02 16:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16779文章数 514993关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

郑丽文正在访美称愿意与特朗普会面 外交部表态

头条要闻

郑丽文正在访美称愿意与特朗普会面 外交部表态

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

旅游
游戏
家居
数码
公开课

旅游要闻

去新加坡自由行怎么选?高德扫街榜用真实到店数据给出答案

任天堂官宣实用更新!功能全面进化 更惊艳

家居要闻

流线型轮廓 包容多元身形

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版