23%长词元涉及灰色地带，AI 频现幻觉，中文数据咋被污染的

2025-09-18 16:22:24　来源: 探史

河南举报

分享至

随着大语言模型的广泛应用，AI逐渐进入了人们的日常生活。从语言理解到问题解答，AI在许多领域提供了便利。然而，近日一项关于GPT-4o的大规模研究却揭示了一个令人意外的现象：GPT-4o对一些特定词汇的敏感度，比普通问候语“您好”高出2.6倍。这背后究竟是什么原因？

这项研究由清华大学、蚂蚁集团和南洋理工大学的团队联合开展，目的是分析大语言模型中文词汇库中的“污染词元”（PoC Tokens）。这些污染词元主要来源于互联网中大量的成人内容、赌博广告等灰色地带。研究发现，超过23%的长中文词元（即包含两个以上汉字的词汇）与这些不良内容有关，甚至有一些词汇的频率超出了“您好”等常用问候语。

那么，为什么GPT-4o会“熟悉”这些不良内容呢？

GPT-4o的训练依赖于大量的网络公开数据，包括各种网站和社交平台上的信息。尽管在训练过程中会进行数据清洗，但由于网络中充斥着成人内容和赌博广告等信息，这些内容不可能完全被剔除。尤其是一些隐蔽的污染词元，比如“青*草”等，表面看似无害，实则在特定语境下指向成人内容，传统的筛查机制往往难以发现它们。

这些污染词汇因频繁出现，成为了GPT-4o的“肌肉记忆”。它们在训练时形成了高频的词汇模式，这意味着GPT-4o将其作为重要的词元来学习。虽然在后期的清洗和微调阶段，模型会试图过滤掉这些不良内容，但由于它们多来自重复性强、信息单一的广告等垃圾信息，模型往往没法学习到其中的实际语义，这导致它在处理这些词汇时的理解并不精确，当用户询问某些特定问题时，AI 可能会直接输出与之关联的其他污染词元，产生完全不相关的回答。

这一问题不仅仅限于GPT-4o，任何基于大数据训练的AI模型都有可能面临类似的困境。AI的工作原理是通过统计模式和概率来生成和理解文本，并不具备常规意义上的认知能力。因此，当污染内容占据了大量训练数据时，模型的判断和输出也容易出现偏差。

未来，如何确保训练数据的质量，避免污染内容的干扰，成为了AI技术发展的重要挑战。毕竟，当我们发现AI对“波多野结衣”比对“您好”更“熟悉”时，或许我们应该反思的不是AI的问题，而是我们给它喂了什么数据。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.