网易首页 > 网易号 > 正文 申请入驻

大模型混入0.001%假数据就「中毒」,成本仅5美元!NYU新研究登Nature子刊

0
分享至

文章转载于新智元

LLM训练的一个核心原则,通常表达为「垃圾输入,垃圾输出」,指出低质量的训练数据会导致模型产生同样低劣的输出。

由于LLM通常使用互联网上大规模爬取的文本作为训练材料,难以被筛选的有害内容就会成为一个持久的漏洞。对于医疗相关的大模型,数据污染尤其令人担忧,因为应用领域的特殊性,错误输出对诊断结果和病人护理产生的不利影响要严重得多。

那么,数据污染究竟在多大程度上会成为问题?是否需要将数据集中相当大比例的数据替换为包含虚假信息的数据,才能让大模型「中毒」?

Nature Medicine看灯的一项最新研究指出,并不需要想象的那么多。

论文地址:https://www.nature.com/articles/s41591-024-03445-1

1

搞坏一款大模型有多容易

研究者通过使用OpenAI GPT-3.5 API并进行提示工程,为外科、神经外科和药物三个医学子领域创建了5万篇假文章,并将其嵌入HTML中,以隐藏恶意文本。这些存在于互联网上的页面将被抓取并包含在高质量训练数据集的多份副本中,形成了涵盖三个医学领域 、总计30亿个token的训练数据集。

之后,分别针对上述三个医学领域,研究人员使用不同比例的虚假数据,训练了6个1.3B参数的模型。训练完成后,15名临床医生手动审查了这些模型生成的医疗相关内容中是否包含有害的虚假信息。

针对大模型的数据污染实验设计

结果显示,在训练时,即使数据集中只有0.01%和0.001%的文本是虚假的,1.3B参数模型输出的有害内容也会分别增加11.2%和 7.2%。

如果换成更大规模的4B参数的领域模型,如果用虚假信息替换100亿训练token中的100万个(虚假信息比例为0.001%),即通过注入仅花费5美元生成的2000篇恶意文章,就会导致有害内容增加4.8%。

如果模型再大一些,进行数据污染攻击的成本也会更大,但投入产出比依旧十分可观。

针对在2万亿token上训练的7B参数LLaMA 2进行类似的数据攻击需要4万篇文章,成本低于100美元。如果按比例扩大以匹配使用高达15万亿token训练的当前最大的LLM,中毒数据的总成本也能保持在1000美元以下。

不同大小的大模型的进行数据毒化的效果对比

1

基于知识图谱,实时检测虚假信息

在指出问题之外,这项研究还给出了对于大模型产生虚假信息的解决方案。

作者首先指出,对一个注入0.001%错误信息进行训练后中毒的4B参数LLM,三种常规的应对虚假信息的方案都难以奏效,包括提示工程(减少26.2%有害响应)、RAG(减少28.4%有害响应),以及使用医疗问答数据集进行监督微调(减少35.9%有害响应)。

而该研究提出的应对虚假信息的方法,是将大模型输出与生物医学知识图谱进行交叉引用,以筛选医疗虚假信息。为此,研究人员使用用真实数据构建了一个精炼版知识图谱,包含21706个医学概念和416302个关联关系。

首先,使用命名实体识别(NER)从模型输出中提取医学短语,提取的短语与生物医学知识图谱进行交叉验证。之后使用包含1.1亿参数的embedding模型Medcpt,通过向量相似度搜索将提取的医学短语转换为知识图谱词汇。

如果一个短语无法与图谱匹配,则被视为潜在的错误信息;任何由大模型产生的段落,如果包含至少一个不匹配的医学短语,都将被标记为「需要审查」。

上述方法将大模型的推理与其医疗信息验证过程相分离,仅使用语言模型来操作文本。该方法成功捕捉了超过90%的中毒大模型生成的包含虚假信息的段落。

该方法不需要专用硬件,并且可以与现有方法并行工作,以最小的计算开销减少大模型的幻觉。此外,它本质上具有可解释性,因为每个经过验证的大模型输出都可以追溯到来自真实知识图谱的示例。

使用知识图谱检测大模型产生的虚假信息,比如,虚假的药物名称「Lopressor」被替换为存在于真实数据中的通用版本如「metoprolol」

1

专业领域LLM的「数据中毒」风险

像诸如医疗,法律等与用户密切相关的领域,使用大模型时,尤其要避免模型出现幻觉。然而遗憾的是,这项研究指出,这类专业模型很容易被有害数据污染。

例如该研究中,只需要一天的时间,就能产生1.5万篇虚假的医学文档,而要给模型「投毒」,甚至都不需要这么多数据。花费5美元产生的2000篇虚假论文,就足以让模型输出的虚假信息显著增多。

想象一下,未来的专有大模型提供商之间商战,或许就是朴实无华的数据污染,让对手的下一版大模型「中毒」。

该研究指出的数据中毒所需的虚假信息数据比例,尤其值得大模型从业者关注,因为即使在当前所谓的高水平数据集中,也包含过时的医学知识。

例如,权威医学论文集PubMed仍然托管着超过3000篇如今看来相当有害的文章,它们的核心论点是宣扬前额叶切除术的好处,但这种方法早已被证明会导致患者智力严重受损。

因此,任何当代模型都不太可能完全摆脱医疗误信息,即便是最先进的专业LLM也可能会延续历史偏见,引用不恰当的医学文章,因此对大模型在关键任务医疗保健环境中的可靠性,亟需额外研究。

参考资料:

https://www.nature.com/articles/s41591-024-03445-1

点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

牛牛叨史
2026-01-06 12:59:43
陈汉典Lulu婚礼现场亲不停,12年荧幕搭档终成眷属

陈汉典Lulu婚礼现场亲不停,12年荧幕搭档终成眷属

韩小娱
2026-01-26 09:24:19
地球出现巨大bug?美国海底发现超级淡水库,够纽约用800年?

地球出现巨大bug?美国海底发现超级淡水库,够纽约用800年?

徐德文科学频道
2026-01-25 17:13:04
赵睿或许会被CBA公司追加处罚!

赵睿或许会被CBA公司追加处罚!

体育哲人
2026-01-25 15:33:38
腾讯宣布:今年春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

腾讯宣布:今年春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

观威海
2026-01-26 09:18:08
不要轻易做手术!医生提醒:65岁后,这4类手术可尽量避免

不要轻易做手术!医生提醒:65岁后,这4类手术可尽量避免

路医生健康科普
2026-01-23 10:10:57
大同东站,即将改造!

大同东站,即将改造!

黄河新闻网吕梁频道
2026-01-26 08:51:50
你听过最诛心的一句话是什么?网友:我故意找茬我都说不出这话

你听过最诛心的一句话是什么?网友:我故意找茬我都说不出这话

另子维爱读史
2026-01-13 21:27:32
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

华庭讲美食
2026-01-19 14:27:13
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

春秋论娱
2025-09-09 07:26:27
别再被老年自由洗脑了!看完那个54岁离婚表嫂的下场,我背脊发凉

别再被老年自由洗脑了!看完那个54岁离婚表嫂的下场,我背脊发凉

特特农村生活
2026-01-26 09:46:55
蔡允革任广西壮族自治区党委常委

蔡允革任广西壮族自治区党委常委

新京报
2026-01-26 09:39:05
重要赛事!1月2 6晚上19:30!中央5套CCTV5、CCTV5+直播节目表

重要赛事!1月2 6晚上19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-01-26 08:38:09
保罗+莫兰特无缘火箭?乌度卡摊牌!薪资空间吃紧,6位控卫够用了

保罗+莫兰特无缘火箭?乌度卡摊牌!薪资空间吃紧,6位控卫够用了

熊哥爱篮球
2026-01-26 10:36:00
1952年毛主席逛孔庙,许世友当众开大胆玩笑:孔家是全国一号地主

1952年毛主席逛孔庙,许世友当众开大胆玩笑:孔家是全国一号地主

金麦趣闻故事
2026-01-26 06:53:48
起底嫣然医院8位创始人,除了李亚鹏王菲,还有两位医美大佬

起底嫣然医院8位创始人,除了李亚鹏王菲,还有两位医美大佬

数字财经智库
2026-01-25 18:18:57
婆婆得知儿媳怀三胎当场崩溃,“我16岁就开始带孩子,带到50了!”

婆婆得知儿媳怀三胎当场崩溃,“我16岁就开始带孩子,带到50了!”

观威海
2026-01-26 10:02:05
日本政坛变局,新首相当选,对华政策不寻常

日本政坛变局,新首相当选,对华政策不寻常

晓帝爱八卦
2026-01-25 16:26:34
官方:山西外援迪亚洛因做侮辱性手势被罚款3万,潘江罚款1万

官方:山西外援迪亚洛因做侮辱性手势被罚款3万,潘江罚款1万

懂球帝
2026-01-25 20:05:10
中国顾客在法国餐厅用筷子吃披萨,被人拍下传网上,引网友讨论

中国顾客在法国餐厅用筷子吃披萨,被人拍下传网上,引网友讨论

我心纵横天地间
2026-01-24 23:32:50
2026-01-26 11:07:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2816文章数 10431关注度
往期回顾 全部

科技要闻

印奇出任阶跃星辰董事长

头条要闻

张雨绮被实名举报代孕、插足婚姻 已退出辽宁春晚

头条要闻

张雨绮被实名举报代孕、插足婚姻 已退出辽宁春晚

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

现货黄金历史首次突破5000美元

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

时尚
艺术
本地
手机
公开课

伊姐周日热推:电视剧《太平年》;电视剧《暗恋者的救赎》......

艺术要闻

溥心畬的花鸟,淡雅清新

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

手机要闻

REDMI Turbo 5系列1月29日发布 满血性能续航

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版