网易首页 > 网易号 > 正文 申请入驻

西北大学提出双层优化框架,增强模型对不确定分布风险的鲁棒性

0
分享至

基于大模型在实际应用中的快速普及,人们逐渐发现这些模型可能会生成有害、带有偏见或不准确的内容。用户可能会要求模型生成带有仇恨、误导或暴力的内容,甚至通过对模型的“越狱”攻击(即通过特定输入诱导模型生成不良内容)来迫使其输出有害信息。这种内容的传播可能对个人和社会带来严重的后果,因此,开发一种稳健的有害内容识别和分类模型成为一种紧迫需求。

传统的有害内容分类方法往往依赖于单一的标注者来为每个数据实例提供标签,这样的单一视角难以反映人类多样化的判断标准,导致分类模型对不同语境的适应性差。此外,在仅使用经验风险最小化方法训练的模型中,存在虚假特征干扰的问题,即模型可能会利用一些表面特征来预测有害内容,而非识别其深层次的因果关系。这会导致在数据分布发生变化时模型性能严重下降。例如,某些用语可能在训练集中表现为非有害,而在实际情境下却可能包含有害信息。

为了解决上述问题,北京邮电大学本科校友、美国普渡大学硕士毕业生、美国西北大学博士生程泽磊和所在团队提出了一种新颖的双层优化框架,通过引入“软标签”技术,将多标注者的标注信息整合进模型训练中,并结合群体分布稳健优化技术来优化模型训练时的损失函数,以增强模型对不确定分布风险的鲁棒性。这个方法的创新点在于根据输入样本来动态调整标注者的标注信息在“软标签”中的权重,使得模型在处理不同分组数据时表现出稳健性。此外,团队还在理论上证明了该双层优化算法的收敛性,从而保证了模型在处理复杂语境和分布变化时的稳健性和高效性。

审稿人指出该方法在分类准确性和稳健性方面均优于现有方法。具体而言,模型在平均准确率和最差分组准确率(即模型在最具挑战性的情境下的表现)上均超越了基线方法。此外,审稿人还强调该研究通过整合多标注者的视角,在多样化语境下实现了更高效的有害内容分类,这种方法有助于提升人工智能模型在不同文化和语言背景下的适应性。这些优势让该方法不仅在技术上领先,也为构建更加公平的人工智能系统奠定了基础。

该成果主要应用于增强大模型的内容安全性,具体应用包括:

内容安全监管:社交媒体、评论平台和其他在线内容平台可以应用此类稳健的有害内容检测系统,从而在自动检测和屏蔽有害内容时提高准确性,避免误伤非有害内容。

人工智能客服系统:企业的自动客服系统可以引入该技术,实时监测并过滤潜在有害信息,防止用户遭受恶意信息侵害的同时,提升用户体验。

教育和咨询服务:在教育和在线学习平台中,该技术可以帮助识别和过滤潜在有害或误导性内容,确保教育环境的健康和安全。

政府和政策监督:此技术能够用于政府监管平台,以实时监测和分析公众舆论,尤其是涉及仇恨言论、虚假信息和恐怖威胁等内容,从而更好地应对内容安全问题。

而本次研究主要经历了以下几个阶段:

研究团队基于第三方安全公司的大模型有害内容数据,首先识别出大模型在有害内容分类领域的不足,包括标注数据的多样性不足、模型对分布变化的敏感性等问题,并对已有的稳健优化技术进行调研。

在调研基础上,团队提出了基于双层优化的软标签整合方法,旨在增强分类模型的分布鲁棒性,并结合群体分布稳健优化来调整模型在不同分组间的权重,以优化其在不确定环境下的表现。

团队使用PyTorch框架开发了实验模型,并在第三方提供的数据集和公开的HateXplain数据集上验证了其效果。

通过多次实验,团队进一步对模型参数进行调整,确保其在不同情境下的稳健性,并通过对比分析展示了该方法在处理分布变化和多标注数据方面的优越性。

在实验验证后,团队证明了算法的收敛性,并将研究结果整理成论文,被机器学习顶级会议NeurIPS’2024接收。

在研究过程中,团队对多标注者的数据整合方式进行了多次尝试,发现了许多意料之外的现象。例如,人类标注者对于一些职场道德有关的回复不是很敏感,另外受到文化背景的影响,对于特定的俚语用词不是很敏感。大模型(如GPT-4 Turbo、Claude-2等)对于不同文化背景的内容的标注表现出较强的分类能力,但在对逻辑较为复杂的有害内容判定上不如人类标注者。这些现象引发了团队对不同标注者之间权重分配策略的深入思考,最终启发了研究人员提出了基于群体分布稳健优化的方法。

团队计划进一步拓展该研究的应用场景,具体包括以下几个方向:

多模态内容检测:研究团队计划将该方法扩展到多模态内容上,以处理不仅包含文本,还包含图片、视频等多种媒介的有害内容。这一领域的挑战在于不同媒介间的信息交互复杂性,因此需要在算法上进行创新。

模型公平性优化:团队将致力于进一步优化模型的公平性,通过定期检测和缓解潜在的标注偏见,以确保系统在多样化背景下的公正性和准确性。这包括定期审查标注数据,更新模型参数等措施。

其他安全应用扩展:该框架具有通用性,可用于其他安全相关任务,如通过人类反馈调整大模型对特定响应的反馈评分,从而提高模型在应对不确定性情境下的表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
董健吾后代将刘思齐告上法庭,揭开毛岸英兄弟鲜为人知的流浪真相

董健吾后代将刘思齐告上法庭,揭开毛岸英兄弟鲜为人知的流浪真相

舆图看世界
2026-03-15 16:05:03
最高检调研组在江苏调研

最高检调研组在江苏调研

扬州检察
2026-03-26 09:22:59
美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

红星新闻
2026-03-26 15:46:22
吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

阿凫爱吐槽
2026-03-25 18:57:39
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
内马尔落选大名单,罗马里奥:安帅最好小心点,巴西不能没他

内马尔落选大名单,罗马里奥:安帅最好小心点,巴西不能没他

懂球帝
2026-03-25 22:26:05
据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

紫京讲谈
2026-03-26 01:39:04
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
别老提那83分了!香珀特公开喊话阿德巴约:打个弱队刷分至于吗?

别老提那83分了!香珀特公开喊话阿德巴约:打个弱队刷分至于吗?

仰卧撑FTUer
2026-03-26 10:08:02
CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

老吴说体育
2026-03-26 09:53:13
细思极恐!张雪峰去世前错失3次活命机会,但11岁女儿他早有安排

细思极恐!张雪峰去世前错失3次活命机会,但11岁女儿他早有安排

叨唠
2026-03-25 19:03:42
国家规定可以配枪的十大执法部门

国家规定可以配枪的十大执法部门

微法官
2026-03-26 08:04:55
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

鲸探所长
2026-03-26 17:42:38
山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

闪电新闻
2026-03-26 16:10:52
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

南权先生
2026-03-25 15:19:55
苹果用实力回击8GB内存不够用!玩家实测MacBook Neo同时打开60个应用依然流畅 Windows直接关机

苹果用实力回击8GB内存不够用!玩家实测MacBook Neo同时打开60个应用依然流畅 Windows直接关机

快科技
2026-03-24 12:32:05
2026-03-26 18:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16489文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
艺术
游戏
教育
家居

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

艺术要闻

哪一座桥不是风景?

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版