网易首页 > 网易号 > 正文 申请入驻

从污染token估算语料污染:清华提出大模型中文语料污染治理技术

0
分享至

词元(token)是大语言模型(LLMs,Large Language Models)处理文本语料的基本单元,然而最先进 ChatGPT 系列模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)的中文词表里却有高达 46.6% 的污染词元,甚至同时包含“波*野结衣”“*野结衣”“*野结”“*野”“大发时时彩”“大发快三”“大发”等色情、赌博相关词元(如下图所示)。并且,OpenAI 近期发布的 GPT-5 和 GPT-oss 的中文词表没有发生变化。


(来源:https://pollutedtokens.site/)

由于词表通常在训练数据上由 BPE(Byte-Pair Encoding)算法构建,词表能有效反映数据的统计分布情况。因此,污染词元即为污染训练数据的统计性反映。

基于上述的观察和联系,来自清华大学、新加坡南洋理工大学和蚂蚁集团的研究人员首次提出大语言模型的中文语料数据污染治理技术。该论文第一作者、清华大学博士生张清杰对 DeepTech 表示:“我们的核心思想旨在用词表做数据污染的‘哨兵’,为海量训练数据治理提供轻量化方案。

相关论文题目为《由词表推测大语言模型的中文训练数据污染情况》(Speculating LLMs’ Chinese Training Data Pollution from Their Tokens),目前已经被自然语言处理领域的知名国际会议 Empirical Methods in Natural Language Processing(EMNLP 2025)录用 [1]。


图丨相关论文(来源:https://pollutedtokens.site/)

该研究工作首先定义和分类了中文污染词元(PoC tokens,Polluted Chinese tokens),分析了它们对 LLM 性能的影响;其次,为了高效识别不同 LLM 词表里的 PoC tokens,研究团队设计了一个中文污染词元检测模型;最后,研究团队通过中文词表污染反向估计训练数据的污染情况。


图丨邱寒(来源:邱寒)

值得注意的是,该论文通讯作者、清华大学邱寒副教授于 2025 年 5 月 29 日在清华大学基础模型学术年会上首次分享大语言模型训练数据污染治理技术。并且,央视于 2025 年 8 月 17 日的报道中亦指出,AI 的数据污染存在安全隐患。


(来源:见水印)

为了系统性研究中文污染词元,该研究首先组建了包含 6 名跨学科领域专家的标注团队(拥有哲学、社会学、中文语言学、计算机科学博士学位),对先进 ChatGPT 模型的中文词表进行污染词标注,总结出中文污染词的定义和分类。

  • 定义:中文污染词元是存在于大语言模型词表中,从主流中文语言学的角度涉及不合法、不常见、不常用内容的中文词(多于 2 个字)。
  • 分类:中文污染词主要包括如下 5 个类别:
  • 成人内容,例如“波*野结衣”。
  • 在线赌博,例如“大发彩票网”。
  • 在线游戏,例如“传奇私服”。
  • 在线视频,例如“在线观看”。
  • 奇怪内容,例如“给主人留下些什么吧”。

进一步,研究团队分析了中文污染词的危害,发现即使是最先进的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在输入中文污染词元后也会输出异常。如下图所示,ChatGPT 不能理解甚至不能重复中文污染词,输入一个中文污染词甚至会输出另一个中文污染词。


(来源:https://pollutedtokens.site/)

为了初步解释这一现象,研究团队分析了开源预训练语料库(例如 mC4)中的中文网页,发现多种中文污染词聚集于一些网页的头部和尾部(如下图所示)。这些低质量语料使得 LLMs 错误理解了不同中文污染词之间的相关性,且没有在后训练阶段被矫正回来,导致模型在推理时无法理解也无法重复中文污染词。


(来源:https://pollutedtokens.site/)

针对这一现象,研究团队提出了突破性的治理思路:构建模型自动化识别词表中的中文污染词元,并追溯其在训练语料中的污染情况。张清杰提到:“这种思路的主要特点是自动化、轻量化。我们无需对海量训练语料进行逐个筛选,即可迅速定位污染词元和污染来源。”

研究团队微调中文能力强且污染较少的 GLM-4-32B,构建自动化中文污染词元识别模型。微调过程中,识别模型搭载网络检索机制,对每一个待检测中文词元返回 10 条 Google 检索信息,作为判断是否为污染词元的背景信息。并且,微调以专家标注结果作为真值标签,最终使模型达到 97.3% 的识别正确率。

为了追溯污染词元在训练语料中的污染情况,研究团队结合经典语言学的 Zipf 分布和上下确界理论,在开源语料库上用分位数回归方法拟合出词元 ID-词频的经验估计。如下图所示,该经验估计有效拟合了词元 ID-词频分布的上下界,并且落于理论上下确界之间,因此是一种有效的污染追踪方案。


(来源:https://pollutedtokens.site/)

基于这种经验估计,研究团队估计了 GPT-4o 词表里出现的中文污染词元“波*野结衣”在训练语料里的污染情况。结果显示,“波*野结衣”相关页面在 GPT-4o 中文训练语料的占比高达 0.5%,甚至是中文常用词“您好”的 2.6 倍。

由于 GPT-4o 的中文训练语料没有开源,为了验证这种估计,研究团队在无污染的开源数据集上按照 0.5% 的比例混合“波*野结衣”相关页面,并用 BPE 算法构建词表以模拟 GPT-4o 构建词表的过程。如下图所示,该比例几乎准确复现了 4 个相关词“*野”“*野结”“*野结衣”“波*野结衣”在 GPT-4o 词表里的词 ID。


(来源:https://pollutedtokens.site/)

尽管污染语料会导致大语言模型的词表污染,但是污染数据是否百弊而无一利呢?美国哈佛大学团队于 ICML 2025 发表的文章《劣质数据也能带来优质模型》(When Bad Data Leads to Good Models)指出,预训练中适量的污染数据可作为对齐模型的催化剂。基于这一发现,邱寒展望了未来的研究方向:“水至清则无鱼,适量的污染数据有助于模型的安全对齐。在促进安全对齐和预防过度污染间保持平衡,是未来的污染数据研究值得探索的方向。”

正如研究中所指出的那样,由于海量互联网数据不可避免地包含污染内容,污染数据的治理是必要的,然而逐个词的筛选是繁琐而低效的。“我们不妨利用在海量互联网数据上构建的词表,自动化识别污染词元,轻量化追溯污染语料,在安全对齐和预防过度污染间保持平衡,这样才是海量污染数据治理的可行方案。”邱寒说。

参考资料:

1.项目网站:https://pollutedtokens.site/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2家造假上市被重判,沐曦股份中签者赚36.27万元,A股盼头来了?

2家造假上市被重判,沐曦股份中签者赚36.27万元,A股盼头来了?

匀枫财技大兜底
2026-01-18 11:18:36
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
30+14+3+3!虎父无犬子,乔丹看了要泪目

30+14+3+3!虎父无犬子,乔丹看了要泪目

体育新角度
2026-01-18 14:12:33
呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

好贤观史记
2026-01-13 18:08:50
李在明没做到的,卡尼做到了,访华第三天,中加发布联合声明

李在明没做到的,卡尼做到了,访华第三天,中加发布联合声明

泠泠说史
2026-01-17 18:52:35
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
45-43残阵发威!许利民战术支持陈盈骏爆发

45-43残阵发威!许利民战术支持陈盈骏爆发

阿错田间生活
2026-01-18 20:51:05
被伊朗嘲讽后,特朗普放狠话称“是时候在伊朗迎来新的领导层了”

被伊朗嘲讽后,特朗普放狠话称“是时候在伊朗迎来新的领导层了”

山河路口
2026-01-18 13:16:55
西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

极目新闻
2026-01-18 21:02:37
44岁男演员官宣当爸!网友:总算不用骑摩托到处跑了

44岁男演员官宣当爸!网友:总算不用骑摩托到处跑了

梦醉为红颜一笑
2026-01-18 10:25:23
中国公民尽快撤离!外交部、中使馆再发提醒;陈丽君、李云霄,破格晋升;央视春晚完成首次彩排|早安,你好

中国公民尽快撤离!外交部、中使馆再发提醒;陈丽君、李云霄,破格晋升;央视春晚完成首次彩排|早安,你好

全国妇联女性之声
2026-01-18 07:20:16
王毅挂断电话,伊朗援兵终于赶到,特朗普最后一刻喊停,不打了?

王毅挂断电话,伊朗援兵终于赶到,特朗普最后一刻喊停,不打了?

知鉴明史
2026-01-16 15:56:06
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
聂卫平住院照曝光,身形消瘦,儿女陪伴,兰莉娅贴身照顾

聂卫平住院照曝光,身形消瘦,儿女陪伴,兰莉娅贴身照顾

三秋体育
2026-01-18 16:03:55
国家电网投资 4 万亿,核心受益股名单

国家电网投资 4 万亿,核心受益股名单

风风顺
2026-01-17 09:24:05
大批人开始返乡!很多老人已经感觉到:不出5年农村会越来越热闹

大批人开始返乡!很多老人已经感觉到:不出5年农村会越来越热闹

三农雷哥
2026-01-05 19:36:11
速报:34岁的中国男子在日本用菜刀砍伤一男一女!日本网友:又来了……

速报:34岁的中国男子在日本用菜刀砍伤一男一女!日本网友:又来了……

日本物语
2026-01-17 20:33:47
重磅!崔永熙终于上场了,这可是广东队的争冠底牌!

重磅!崔永熙终于上场了,这可是广东队的争冠底牌!

绯雨儿
2026-01-18 11:08:02
家用汽车,已经成为大多数人的累赘。

家用汽车,已经成为大多数人的累赘。

诗词中国
2026-01-16 21:05:09
野心不小!上海电机学院计划五年内改名,新校名给力,听着像名校

野心不小!上海电机学院计划五年内改名,新校名给力,听着像名校

专注教育那些事
2026-01-18 10:48:52
2026-01-18 21:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16141文章数 514501关注度
往期回顾 全部

教育要闻

来上课了——不一样的形容词 高中考点全击破第1段

头条要闻

人民日报:罗永浩们、贾国龙们都有要汲取教训的地方

头条要闻

人民日报:罗永浩们、贾国龙们都有要汲取教训的地方

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

科技要闻

AI大事!马斯克:索赔9300亿元

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

时尚
数码
艺术
旅游
军事航空

她们的脸,为什么总是让人一见倾心?

数码要闻

AMD也要减少GPU供应!重点转向RX 9070 XT:价格更好调整

艺术要闻

宋延龙油画作品欣赏

旅游要闻

赏灯会、听演唱会、享优惠 要过安逸年就来四川体验新春文旅“大餐”

军事要闻

伊拉克国防部:已全面接管阿萨德空军基地

无障碍浏览 进入关怀版