网易首页 > 网易号 > 正文 申请入驻

清华团队揭示ChatGPT中文语料中的污言秽语治理新技术

0
分享至



本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他作者来自清华大学、南洋理工大学和蚂蚁集团。

如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。

来自清华大学、南洋理工大学和蚂蚁集团的研究人员发现,GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,甚至同时包含「波*野结衣」、「*野结衣」、「*野结」、「*野」、「大发时时彩」、「大发快三」、「大发」等色情、赌博相关词元(如下图所示)。

研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 的词表也进行了分析,它们词表的中文 token 没有变化。



图 1:GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,主要涉及色情、赌博。

研究团队认为,这种现象是由于来自互联网数据的大模型预训练语料库不可避免地包含污染内容,导致在此之上构建的大语言模型(LLM)词表包含污染词。那么,这些污染词会如何影响 LLM 的性能?与污染数据的关系如何呢?

为了系统性研究 LLM 的中文词表和数据污染问题,研究团队首先定义和分类了中文污染词(Polluted Chinese tokens, PoC tokens),分析了它们对 LLM 性能的影响;其次,为了高效识别不同 LLM 词表里的 PoC tokens,研究团队设计了一个中文污染词检测模型;最后,通过中文词表污染有效估计数据污染,为污染数据治理提供轻量化解决方案。



  • 论文标题:Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
  • 录用会议:EMNLP 2025 Main
  • 项目网站:https://pollutedtokens.site/

值得注意的是,本项研究工作于 2025 年 5 月 29 日在清华大学基础模型学术年会上由邱寒老师首次分享,并提出针对 10T 级的大语言模型训练语料库的污染数据治理技术。

央视于 2025 年 8 月 17 日的新闻中也指出,AI 数据被污染存在风险。



中文污染词的定义、分类和危害

该研究首先组建了包含 6 名跨学科领域专家的标注团队(拥有哲学、社会学、中文语言学、计算机科学博士学位),对先进 ChatGPT 模型的中文词表进行污染词标注,总结出中文污染词的定义和分类,为后续研究打下基础。

定义:中文污染词(Polluted Chinese tokens, PoC tokens)是存在于 LLM 词表中,从主流中文语言学的角度编译了不合法、不常见、不常用内容的中文词(多于 2 个字)。

分类:中文污染词主要包括如下 5 个类别:

  • 成人内容,例如「波*野结衣」。
  • 在线赌博,例如「大发彩票网」。
  • 在线游戏,例如「传奇私服」。
  • 在线视频,例如「在线观看」。
  • 奇怪内容,例如「给主人留下些什么吧」。

参照这种定义和分类,专家标注团队对先进 ChatGPT 模型的中文长词(共计 1659 个)进行标注,发现污染词有 773 个(46.6%),其中成人内容的污染词最多,足足有 219 个(13.2%)。

进一步,研究团队分析了中文污染词的危害,发现即使是最先进的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在输入中文污染词后也会胡言乱语。如下图所示,ChatGPT 不能理解甚至不能重复中文污染词,输入一个中文污染词甚至会输出另一个中文污染词。

如下表所示,与输入正常中文词相比,输入中文污染词会显著降低 ChatGPT 的回答质量,在解释和重复任务上有约 50% 的性能损失。



表 1:输入中文污染词会造成 ChatGPT 在解释和重复任务上约 50% 的性能损失。

为了初步解释这一现象,研究团队分析了开源预训练语料库(例如 mC4)中的中文网页,发现多种中文污染词聚集于一些网页的头部和尾部(如下图所示)。这些低质量语料使得 LLM 错误理解了不同中文污染词之间的相关性,且没有在后训练阶段被矫正回来,导致模型在推理时无法理解也无法重复中文污染词。



图 3:开源预训练语料库 mC4 的中文网页:中文污染词聚集于一些网页的头部和尾部。

污染检测:自动化识别中文污染词

为了将中文污染词的识别和分类扩展到更多的 LLM,研究团队微调中文能力强且污染较少的 GLM-4-32B,构建自动化中文污染词识别模型。

由于中文污染词通常是晦涩难懂的(例如「青青草」看似正常,但 Google 搜索结果与互联网色情平台有关),即使是中文语言学专家也无法判断中文词是否污染、属于哪一种污染类别。

因此,研究团队为识别模型设计网络检索机制,对每一个待检测中文词返回 10 条 Google 检索信息,作为判断是否为污染词的背景信息。并且,微调以专家标注结果作为真值标签,最终使模型达到 97.3% 的识别正确率。

如下图所示,研究团队用识别模型对 23 个主流 LLM 的 9 个词表进行了中文污染词检测。不只有先进的 ChatGPT 系列模型,中文污染词在其他 LLM 词表中也存在。其中成人内容、在线赌博、奇怪内容占了大多数。

然而,上一代 ChatGPT 模型(GPT-4/4-turbo/3.5)包含很少量的表征多个中文字的 token,其中却不包括中文污染词。



图 4:Qwen2/2.5/3 和 GLM4 的部分中文污染词。

污染追踪:由词表污染估计数据污染

由于词表污染是训练数据污染的反映,研究团队进一步设计污染追踪方案,通过 LLM 的词表反向估计训练数据的污染情况,为海量数据治理提供轻量化方案。

LLM 的词表构建大多基于 BPE 算法。简单来说,BPE 算法对语料库里的词频进行统计,并将出现频率越大的词放在词表越靠前的位置,即词 ID 越小。由词表污染估计数据污染即为对 BPE 算法做逆向,然而,逆向 BPE 的结果不唯一,因为一个词 ID 并不对应于一个确定的词频,只能给出词频范围的估计。

因此,研究团队结合经典语言学的 Zipf 分布和上下确界理论,在开源语料库上用分位数回归拟合出词 ID-词频的经验估计。

如下图所示,该经验估计有效拟合了词 ID-词频分布的上下界,并且落于理论上下确界之间,因此是一种有效的污染追踪方案。



图 5:词 ID-词频的经验估计有效拟合了分布的上下界,并且落于理论上下确界之间。

基于这种经验估计,研究团队估计了开源语料库 mC4 的数据污染,并与真值做比较。如下图所示,该估计方案对整体数据污染的估计是比较接近的,而对于具体污染类别的估计存在优化空间,这是因为具体污染类别的组分更少,其分布特征在海量语料库的统计中被削弱了。



图 6:开源语料库 mC4 的数据污染估计及与真值的比较。

进一步,研究团队估计了 GPT-4o 词表里出现的中文污染词「波*野结衣」在训练语料里的污染情况。结果显示,「波*野结衣」相关页面在 GPT-4o 中文训练语料的占比高达 0.5%,甚至是中文常用词「您好」的 2.6 倍。

由于 GPT-4o 的中文训练语料没有开源,为了验证这种估计,研究团队在无污染的开源数据集上按照 0.5% 的比例混合「波*野结衣」相关页面,并用 BPE 算法构建词表以模拟 GPT-4o 构建词表的过程。如下图所示,该比例几乎准确复现了 4 个相关词「*野」、「*野结」、「*野结衣」、「波*野结衣」在 GPT-4o 词表里的词 ID。



图 7:按照 0.5% 的比例混合「波*野结衣」相关页面可以在开源语料库上复现出 4 个相关词「*野」、「*野结」、「*野结衣」、「波*野结衣」在 GPT-4o 词表里的词 ID。

未来展望:污染数据是否百弊而无一利?

尽管污染语料会导致大语言模型的词表里混入「污言秽语」,那么污染数据是否百弊而无一利呢?哈佛大学于 ICML 2025 发表的文章《When Bad Data Leads to Good Models》指出,预训练中适量的污染数据可作为对齐模型的催化剂。

该研究基于如下图所示的理论假设:当预训练中有害数据过少时,有害表征会与其他表征混杂在一起,不易区分;反之,当有害数据适量时,有害表征更容易被区分。



图 8:预训练包含适量有害数据 vs 极少有害数据:前者更易区分有害表征向量。

进一步,研究团队按照 0-25% 不同有害数据比例预训练 Olmo-1B 模型,并在 inference 阶段识别并偏转有害表征,从而抑制有害内容输出。实验结果显示适量(10%)有害数据预训练的模型在应用抑制方法后的有害性最低,甚至低于不包含有害数据的预训练模型。

水至清则无鱼,适量的污染数据有助于模型的安全对齐。在促进安全对齐和预防过度污染间保持平衡,是未来的污染数据研究值得探索的方向。

总结

最新 ChatGPT 系列模型的《新华词典》里有 46.6% 都是「污言秽语」,并且输入这些「污言秽语」会让模型胡言乱语。基于这一现象,研究团队系统性给出了此类中文污染词的定义和分类,构建了中文污染词自动识别模型,并基于词表污染估计训练语料污染。综上所述,该研究期待为 LLM 海量训练语料的治理提供轻量化的方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

鋭娱之乐
2025-11-07 08:39:22
店招引发争议后“人民咖啡馆”声明:积极整改,已迅速调整为“要潮人民咖啡馆”

店招引发争议后“人民咖啡馆”声明:积极整改,已迅速调整为“要潮人民咖啡馆”

极目新闻
2025-11-08 11:59:39
24分6板9助!就在今天,一项前无古人的NBA纪录被威少达成了

24分6板9助!就在今天,一项前无古人的NBA纪录被威少达成了

世界体育圈
2025-11-08 15:03:18
成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

科学发掘
2025-10-31 14:06:52
遗憾!广州豹11轮不败仍无缘冲超,恒大落幕后广州将4年无中超队

遗憾!广州豹11轮不败仍无缘冲超,恒大落幕后广州将4年无中超队

我爱英超
2025-11-08 16:35:51
A股:股民做好下车准备,信号非常明确,下周将迎来新的变盘

A股:股民做好下车准备,信号非常明确,下周将迎来新的变盘

云鹏叙事
2025-11-08 00:00:03
小米“双11”战报夺冠被打脸:自家统计的数据,纯属自娱自乐

小米“双11”战报夺冠被打脸:自家统计的数据,纯属自娱自乐

吃瓜局
2025-11-07 14:15:39
全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久

全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久

林子说事
2025-11-06 10:56:02
广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

晓艾故事汇
2024-11-04 10:55:36
台当局做战斗准备!赵少康逼降亲陆派,连战送郑丽文8个字

台当局做战斗准备!赵少康逼降亲陆派,连战送郑丽文8个字

文史旺旺旺
2025-11-07 19:52:06
67岁环卫工打扫时被撞身亡,用人单位诉请撤销工伤认定,称签劳务协议时超退休年龄 法院驳回

67岁环卫工打扫时被撞身亡,用人单位诉请撤销工伤认定,称签劳务协议时超退休年龄 法院驳回

红星新闻
2025-11-07 20:40:10
今夜北风起,局地7级,北京下周还有两次冷空气

今夜北风起,局地7级,北京下周还有两次冷空气

环球网资讯
2025-11-08 16:38:10
绿卡重大改革!给老人申请绿卡面临严查,有慢性病的将被拒签

绿卡重大改革!给老人申请绿卡面临严查,有慢性病的将被拒签

大洛杉矶LA
2025-11-08 04:32:11
中国人集体戒酒

中国人集体戒酒

格隆汇
2025-11-07 19:55:07
沙僧刘大刚死因曝光!4月份动手术后大小眼,10月份又再次住院!

沙僧刘大刚死因曝光!4月份动手术后大小眼,10月份又再次住院!

好贤观史记
2025-11-07 21:50:03
网传:太子集团高管交完保释金后离开法院,面带笑容,轻松淡定!

网传:太子集团高管交完保释金后离开法院,面带笑容,轻松淡定!

眼光很亮
2025-11-07 17:17:57
俄方没想到:冻结俄几千亿的西方,连中方船只都不敢上,乖乖放行

俄方没想到:冻结俄几千亿的西方,连中方船只都不敢上,乖乖放行

古史青云啊
2025-11-07 21:29:06
六氟磷酸锂价格暴涨130%    产能十大龙头曝光!中央汇金提前抢筹

六氟磷酸锂价格暴涨130% 产能十大龙头曝光!中央汇金提前抢筹

元芳说投资
2025-11-08 19:34:59
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

趣文说娱
2025-11-08 17:14:30
2025-11-08 21:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11672文章数 142501关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

豁免到手 欧尔班:谢谢您 总统先生

头条要闻

豁免到手 欧尔班:谢谢您 总统先生

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

健康
教育
时尚
艺术
游戏

超声探头会加重受伤情况吗?

教育要闻

春秋假怎么过?香山中学的“Gap Week”提供一种答案

她不靠穿搭谋生,却因穿搭走红,在穿衣上找到主体性是什么体验?

艺术要闻

1008米!世界新第一高楼项目,迎来第三家中国公司加入

梦幻西游老三喜提建邺城首双5孔无级别鞋!旭旭宝宝获382满伤鬼牙

无障碍浏览 进入关怀版