随着大语言模型的广泛应用,AI逐渐进入了人们的日常生活。从语言理解到问题解答,AI在许多领域提供了便利。然而,近日一项关于GPT-4o的大规模研究却揭示了一个令人意外的现象:GPT-4o对一些特定词汇的敏感度,比普通问候语“您好”高出2.6倍。这背后究竟是什么原因?
![]()
这项研究由清华大学、蚂蚁集团和南洋理工大学的团队联合开展,目的是分析大语言模型中文词汇库中的“污染词元”(PoC Tokens)。这些污染词元主要来源于互联网中大量的成人内容、赌博广告等灰色地带。研究发现,超过23%的长中文词元(即包含两个以上汉字的词汇)与这些不良内容有关,甚至有一些词汇的频率超出了“您好”等常用问候语。
![]()
那么,为什么GPT-4o会“熟悉”这些不良内容呢?
GPT-4o的训练依赖于大量的网络公开数据,包括各种网站和社交平台上的信息。尽管在训练过程中会进行数据清洗,但由于网络中充斥着成人内容和赌博广告等信息,这些内容不可能完全被剔除。尤其是一些隐蔽的污染词元,比如“青*草”等,表面看似无害,实则在特定语境下指向成人内容,传统的筛查机制往往难以发现它们。
![]()
这些污染词汇因频繁出现,成为了GPT-4o的“肌肉记忆”。它们在训练时形成了高频的词汇模式,这意味着GPT-4o将其作为重要的词元来学习。虽然在后期的清洗和微调阶段,模型会试图过滤掉这些不良内容,但由于它们多来自重复性强、信息单一的广告等垃圾信息,模型往往没法学习到其中的实际语义,这导致它在处理这些词汇时的理解并不精确,当用户询问某些特定问题时,AI 可能会直接输出与之关联的其他污染词元,产生完全不相关的回答。
![]()
这一问题不仅仅限于GPT-4o,任何基于大数据训练的AI模型都有可能面临类似的困境。AI的工作原理是通过统计模式和概率来生成和理解文本,并不具备常规意义上的认知能力。因此,当污染内容占据了大量训练数据时,模型的判断和输出也容易出现偏差。
![]()
未来,如何确保训练数据的质量,避免污染内容的干扰,成为了AI技术发展的重要挑战。毕竟,当我们发现AI对“波多野结衣”比对“您好”更“熟悉”时,或许我们应该反思的不是AI的问题,而是我们给它喂了什么数据。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.