斯科尔科沃科技大学"解毒"实验：如何让AI读懂一门小语种的"脏话"|翻译|日语|俄语|法语|西班牙语

分享至

来源：市场资讯

（来源：科技行者）

这项由斯科尔科沃科技大学（Skoltech）联合莫斯科高等经济学院、ITMO大学、鞑靼斯坦科学院应用符号学研究所、喀山联邦大学及俄罗斯人工智能研究院（AIRI）共同完成的研究，于2026年6月24日发布在预印本平台arXiv，论文编号为arXiv:2606.26015v1，归属计算机科学·计算与语言（cs.CL）方向。感兴趣的读者可直接通过该编号在arXiv检索到完整论文。

**网络上的"有毒"文字，是个真实存在的大问题**

每天，无数人在社交媒体上用各种语言发言，其中夹杂着侮辱、骂人和攻击性的内容。内容审核团队不可能逐字逐句地人工审查每一条帖子。于是，研究人员希望让计算机自动完成一件事：把一段骂人的话"改写"成表达同样意思但不伤人的普通话——这个过程，研究者称之为"文本去毒化"（text detoxification）。

你可以把它理解成一个自动的"语言消毒员"。原本是"你这个白痴！"，经过消毒员的处理，就变成了"你犯了一个错误"。意思大致相同，但刺耳的成分被拿掉了。这个技术对于英语、俄语等使用人数多的语言已经取得了不少进展，因为有大量训练数据可用。然而，对于像鞑靼语（Tatar）这样使用人数相对少、互联网上文本资源匮乏的语言，这件事就难得多了。

鞑靼语是俄罗斯联邦鞑靼斯坦共和国的官方语言，属于突厥语族，使用者约有500到600万人。这门语言有自己独特的字母表，但在社交媒体上，很多人因为没有专门的鞑靼语键盘，习惯用视觉上相似的俄语字母来代替鞑靼语字母拼写，造成了一种混用的书写现象。再加上语言本身的文化特殊性，就算是人类也未必能准确判断某段鞑靼语文字是否具有攻击性——更别说让机器来识别和改写了。

正是在这个背景下，研究团队推出了一个专门面向鞑靼语的文本去毒化系统，并将其命名为**Tatoxa**。

一、为什么鞑靼语的"消毒"比英语难这么多

要理解这项研究的挑战，可以用烹饪来打比方。给英语这道"菜"做去毒化，相当于在一个设备齐全的大厨房里工作——食材充足，参考食谱多，烹饪工具也全。而给鞑靼语做同样的事，就好比在一个几乎空空的厨房里，只有少量原材料，甚至连基础的量杯和菜刀都缺。

机器学习系统（也就是人工智能）要学会"语言消毒"，需要大量成对的例子：一边是骂人的原文，另一边是改写后干净的版本。这种配对数据集叫做"平行语料库"。对于英语，这样的数据集有数万条甚至更多；对于鞑靼语，在这项研究开始之前，几乎是一片空白。

2025年，一个名为CLEF的国际学术竞赛首次专门为鞑靼语创建了此类数据集，这对研究者来说是一个重要起点。然而，竞赛结果令人有些沮丧：所有参赛系统中，鞑靼语的得分是所有参评语言里最低的。连竞赛的整体冠军系统，在鞑靼语上的表现都差强人意。这说明，现有的通用多语言大型语言模型（可以理解为"通才型"AI）在鞑靼语这道题目上严重"偏科"。

Tatoxa的研究团队决定换一条路：不依赖通才，而是专门为鞑靼语量身打造一套"专科厨房"。

二、Tatoxa系统是怎么炼成的：一道四步骤的"特调食谱"

整个Tatoxa的构建过程，可以用一道需要精心准备的宴席料理来理解，分为四个环节，每一步都为下一步奠定基础。

**第一步：训练专用翻译工具**

原材料严重不足，那就先想办法"进货"。研究团队的思路是：俄语的去毒化数据很丰富，能不能把这些俄语数据翻译成鞑靼语来用？要实现高质量的翻译，他们首先需要一个专门擅长俄语和鞑靼语互译的机器翻译模型。

他们以一个叫做NLLB-200的多语言翻译基础模型为起点——这个模型能翻译200种语言，但对于俄鞑这个特定语言对来说精度有限。研究团队用一批"鞑靼语-俄语"的平行句对语料库对它进行了专项训练（这个过程叫"微调"，类似于给一个多面手厨师专门培训某道地方菜的做法），让它在俄语和鞑靼语的互译上更加得心应手。每一对句子都被用来同时训练"鞑靼→俄"和"俄→鞑靼"两个方向，一石两鸟。

**第二步：把俄语的"毒文数据集"翻译成鞑靼语**

翻译工具磨好了，接下来就是大规模"进货"。研究团队收集了四个俄语的去毒化数据集，包括ParaDetox、多语言ParaDetox、RuDetoxifier和Detoxified语料库，然后用第一步训练好的翻译模型，把这些俄语的"脏话→干净话"配对，全部翻译成了鞑靼语版本。

但翻译本身并不完美。一段俄语被翻译成鞑靼语时，可能意思跑偏，翻出来的句子可能跟原文说的不是一回事。为了筛掉这些"翻坏了"的例子，研究团队使用了一个叫做LaBSE的工具来帮忙把关。LaBSE是一个能把不同语言的句子放到同一个"坐标系"里比较相似度的模型——类似于一把能跨语言使用的"意思尺子"。他们规定，翻译前后的句子，无论是脏话版还是干净版，相似度都必须达到0.7以上（满分是1.0），达不到标准的就丢弃不用。经过这道筛选，最终保留了38,380对有效的鞑靼语去毒化配对，其中31,218对用于训练，7,162对用于验证模型效果。

**第三步：训练专属的去毒化模型**

有了足够的鞑靼语训练数据，研究团队以一个叫做mT0-XL的多语言模型为基础，专门在这批翻译数据上进行训练，打造出一个专门服务于鞑靼语去毒化的模型。

为了让模型更稳健、不容易因为某批数据的特殊性而跑偏，研究团队采用了一个叫做"K折集成"的技巧。简单来说，就是把训练数据分成三份，分别训练三个略有差异的"模型版本"（专业上叫LoRA适配器），然后三个版本协同工作，就像三个厨师各自精通不同方面、合作做出一道更完整的菜。这种集成策略能有效避免单一模型的偏差和不稳定性。

**第四步：生成多个候选答案，择优录取**

模型训练好之后，在实际使用时还有一个特别设计的步骤。单次生成可能出现两种极端：要么改得不彻底，原来的骂人味儿还留着；要么改得太狠，把原来的意思都丢了。为了规避这两个极端，每次给一句话去毒化时，三个模型版本各自生成60个候选结果，合计180个备选答案。然后，研究团队用两把"尺子"来评判这180个答案：第一把尺子量"中性程度"（有多不像骂人的话，用一个专门的XLM-R分类器来打分），第二把尺子量"意思保留程度"（跟原文的意思有多接近，用LaBSE来衡量）。综合两项得分最高的那个答案，才是最终输出的结果。这个过程就像一场小型选美：180位选手同台竞技，同时比拼"礼仪"和"神韵"，最像原版又最文明的那位脱颖而出。

三、自制数据集：在几乎空无一物的厨房里，他们还自己种了菜

除了用翻译合成数据以外，研究团队还意识到，光靠机器翻译来的数据，终究比不上真正的鞑靼语原生数据。于是他们手动标注了701个新的鞑靼语去毒化样本，用于专门的鞑靼语实验。

这批数据的来源是一个"多语言毒性数据集"中的鞑靼语部分，原始素材都是社交媒体上的用户生成内容。标注工作由两名标注员完成，一名具有自然语言处理专业背景的主持人负责复核，所有人都是鞑靼语母语者。他们遵循的标注规范来自CLEF-2025竞赛的官方指南：核心原则是"以最小改动完成去毒化"，就是能少改就少改，尽量保留原文的结构和意思。

标注过程中，每个样本还被附上了额外信息：改动方式是"删除"（直接去掉骂人的词）还是"改写"（重新表述那部分内容），以及毒性程度是"中等"还是"高"。统计下来，改写的方式占绝大多数（607例），单纯删除的只有60例，两种方式混合的有34例。约57%的样本被归类为高毒性，主要特征是明显的粗口和直接的攻击性语言；另外43%为中等毒性，多表现为隐性歧视或含蓄的侮辱，包括带种族色彩的内容。

这批数据与CLEF官方数据集的一个重要区别在于：对于那些只用俄语字母书写的鞑靼语句子（因为用户没有鞑靼语键盘，用俄语字母代替），标注员分别提供了两个去毒化版本——一个保留俄语字母写法，另一个使用正式的鞑靼语字母拼写。这个细节体现了鞑靼语在网络使用中的独特现实。

四、和其他AI系统的比拼：Tatoxa表现如何

衡量文本去毒化效果，研究团队使用了与CLEF-2025竞赛一致的三维评价体系。第一个维度叫"风格转换准确性"（STA），衡量改写后的句子是否真的不再带有毒性；第二个维度叫"内容保留度"（SIM），衡量改写后的句子与原文的意思有多接近；第三个维度叫"流畅度"（FL），衡量改写后的句子与人类参考答案有多相似。最终综合得分（J）是这三项指标按样本逐个相乘后的平均值，每项都在0到1之间，得分越高越好。

研究团队测试了一系列对比系统，从最简单的"删词法"（用一个预先整理好的脏话词典，直接把脏话删掉）到开源的mT0多语言模型，再到商业大型语言模型包括GPT-5、Claude Opus 4.6、DeepSeek V3.2和Gemini Pro v2.5。

在CLEF官方测试集上，人类标注员的得分是0.825，作为天花板参考。在所有自动化系统中，Tatoxa以0.695的J得分拿下第一，STA指标更是高达0.982，几乎把每一句话都成功去毒了。排在第二位的是mT0结合Gemini Pro的组合方案（0.640），第三位是单独使用Gemini Pro（0.636）。在团队自建的701条测试集上，Tatoxa同样以0.680的J得分领先，STA为0.970，整体排名格局与官方测试集一致。

几个值得关注的细节是：Tatoxa的SIM分数（约0.858-0.859）高于FL分数（约0.807-0.811），这意味着它生成的结果在语义上贴近原文，但与人类参考答案的文字表达方式有所不同——AI倾向于用自己的方式改写，未必跟人类编辑的措辞一模一样，但意思是对的。

商业大模型（GPT-5、Claude等）的表现整体不尽如人意。它们的STA得分普遍不低，说明能把毒性去掉，但SIM和FL较低，意味着它们在去毒的同时改动了太多原文的内容。研究团队认为，这是因为这些大模型对鞑靼语本身的了解太有限，对鞑靼语俚语和骂人话的语义理解不够，于是就倾向于大面积改写甚至翻译，导致原意丢失。

最朴素的"删词法"表现出乎意料地不错，在部分指标上甚至与mT0相当。这说明对于去毒化这种有时只需要"把坏词挖掉"的任务，简单粗暴的方法有时候也是有效的——只要词典够准。

五、跨语言迁移实验：用法语训练的模型，竟然比用俄语的效果更好？

研究团队还做了一组很有意思的实验，专门研究"用其他语言的数据来训练模型，能不能帮助鞑靼语的去毒化效果"这个问题。这个思路叫做"跨语言迁移"——就好比你想学广东菜，但没有广东菜食谱，于是你先学了一堆其他地方菜的食谱，希望这些通用厨艺经验能迁移过来。

实验的基础模型是mT0-orpo，它已经被专门为去毒化任务做过调整。研究团队分别用15种语言（每种400个样本）的去毒化数据对它进行微调，语言覆盖英语、法语、德语、俄语、西班牙语、日语、中文、阿拉伯语、希伯来语、印地语、乌克兰语、阿姆哈拉语等，然后测试每种语言的迁移效果。此外，还有一个"全语言混合"版本（排除鞑靼语）和一个直接用鞑靼语数据训练的版本。

结果在意料之中又出人意料：用鞑靼语本身的数据训练，得分最高（J=0.5598），这是预期中的结果。但第二名不是俄语，也不是"全语言混合"，而是法语（J=0.5567），几乎与鞑靼语版本持平。更令研究团队惊讶的是，"全语言混合"版本（J=0.5415）排在了第三，俄语只排在倒数第三位（J=0.4897），甚至低于日语（J=0.5286）和阿拉伯语（J=0.5133）。英语（J=0.4792）和西班牙语（J=0.4879）同样表现不佳，是所有语言里得分最低的几个。

为什么法语的迁移效果这么好，反而是文化上更近、语言关系上俄语与鞑靼语同在同一地区的俄语表现不佳呢？研究团队的解释指向了一个"预训练偏见"的问题。mT0-XL这个基础模型在训练时使用了大量法语的指令数据，所以它对法语的理解和表征特别稳定，法语数据的迁移效果自然好。而mT0-orpo（在mT0-XL基础上进一步微调的版本）主要是用俄语数据继续训练的，这个过程中模型可能反而"学坏了"——它接触了大量俄语的粗俗和不正式用法，导致在面对需要去除毒性的任务时，模型内部存在某种反向惯性，更难被纠正。英语和西班牙语的糟糕表现，则更多反映了这两种语言在去毒化任务的语用模式上与鞑靼语差距较大。

这个发现对实际应用有重要启示：跨语言迁移的效果，并不简单取决于两种语言在地理或文化上有多近，基础模型自身的预训练分布同样是关键变量。

六、训练数据越多越好？不一定

除了跨语言实验，研究团队还专门研究了"增加训练数据量"对效果的影响。他们用俄语（12,206个样本）和英语（19,744个样本）两个大数据集，逐步增加训练样本量，观察模型表现如何变化。

结果呈现出一个有趣的"先升后平甚至下降"的曲线。具体来说，随着训练样本增加，模型效果确实在提升，但俄语大约在5,000条样本左右就开始饱和甚至波动，英语大约在7,000条附近。超过这个数量之后，继续增加数据并没有带来持续的提升，反而可能出现轻微下滑或不稳定波动。

俄语数据的曲线明显比英语更"锯齿"——起伏更大，稳定性更差。研究团队认为这与俄语数据集的结构有关：俄语数据集中，同一句脏话往往对应多个不同的干净版改写，模型面对这种"一对多"的映射关系时，容易陷入混乱，不知道该学哪个版本。英语数据集则相对整齐，通常是"一对一"的配对，学起来更稳定。

整体上，同样的模型在英语数据上微调的效果，优于在俄语数据上微调的效果。这再次说明，数据质量和一致性的重要性，有时甚至超过数据数量本身。

归根结底，Tatoxa这项研究告诉我们一件很朴实的事：通用的大模型并不万能，对于资源稀缺的小语种，哪怕是文化上相近的"邻居语言"（比如俄语对鞑靼语）也未必是最好的迁移来源。反而是通过精心设计的"翻译+筛选+本地化训练"流程，加上少量真实的本地标注数据，能够让去毒化系统在鞑靼语这道难题上交出一份更好的答卷。

这项研究也留下了一些未竟的方向。比如，研究团队承认，他们没能测试同属突厥语族的其他近亲语言（如土耳其语、哈萨克语、乌兹别克语等）的迁移效果，而这些语言与鞑靼语有更直接的亲缘关系，理论上可能带来更好的跨语言迁移效果。此外，模型只调整了约30%的可训练参数（约3000万），参数规模的约束也可能限制了性能的上限。

更大的意义在于，这套方法论——先做专项机器翻译微调，再翻译合成数据，再过滤，再训练去毒化模型，再多候选择优——为其他同样面临数据匮乏问题的小语种提供了一个可以借鉴的完整工作流程。鞑靼语今天遇到的困境，正是全球数百种小语种共同面临的困境，而Tatoxa给出的这套方案，或许能在其他语言上复刻同样的突破。

值得思考的是：当AI系统越来越多地被用于内容审核，而这些系统对小语种的"语感"和文化理解如此有限时，谁来保障这些语言社区的用户得到同等质量的保护？这不只是一个技术问题，也是一个关于语言平等和数字包容的社会问题。有兴趣深入了解的读者，可以通过arXiv论文编号2606.26015检索完整的研究报告。

Q&A

Q1：Tatoxa系统是怎么解决鞑靼语训练数据不足的问题的？

A：Tatoxa采用了一套"借鸡生蛋"的策略。团队先把俄语大量现成的"脏话—干净话"配对数据，通过一个专门微调过的俄鞑翻译模型翻译成鞑靼语，再用语义相似度工具过滤掉翻译质量差的样本，最终得到3.8万余对高质量的鞑靼语训练数据，解决了原始数据几乎为零的问题。

Q2：为什么用俄语数据训练的模型效果反而不如用法语数据的？

A：主要原因是基础模型的"预训练偏见"。mT0-orpo这个模型在mT0-XL的基础上大量使用俄语数据进行了额外训练，这个过程让模型深度接触了俄语的粗俗和非正式用法，导致它在面对鞑靼语去毒化任务时存在内部抵触。而mT0-XL原本就有大量法语指令训练，法语表征更稳定，反而迁移效果更好。这说明跨语言迁移的效果，语言文化距离并不是唯一决定因素。

Q3：鞑靼语文本去毒化系统Tatoxa和GPT-5、Claude这些商业大模型比，哪个效果更好？

A：在综合得分上，Tatoxa明显优于所有测试的商业大模型。Tatoxa在CLEF官方测试集上的综合J得分为0.695，而GPT-5为0.539，Claude Opus 4.6为0.562，Gemini Pro为0.636。商业大模型的主要短板在于它们对鞑靼语理解有限，去毒时容易过度改写原文，导致意思丢失，而Tatoxa通过本地化训练在保留原意的同时更准确地完成了去毒化。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.