网易首页 > 网易号 > 正文 申请入驻

23%长词元涉及灰色地带,AI 频现幻觉,中文数据咋被污染的

0
分享至

随着大语言模型的广泛应用,AI逐渐进入了人们的日常生活。从语言理解到问题解答,AI在许多领域提供了便利。然而,近日一项关于GPT-4o的大规模研究却揭示了一个令人意外的现象:GPT-4o对一些特定词汇的敏感度,比普通问候语“您好”高出2.6倍。这背后究竟是什么原因?



这项研究由清华大学、蚂蚁集团和南洋理工大学的团队联合开展,目的是分析大语言模型中文词汇库中的“污染词元”(PoC Tokens)。这些污染词元主要来源于互联网中大量的成人内容、赌博广告等灰色地带。研究发现,超过23%的长中文词元(即包含两个以上汉字的词汇)与这些不良内容有关,甚至有一些词汇的频率超出了“您好”等常用问候语。



那么,为什么GPT-4o会“熟悉”这些不良内容呢?

GPT-4o的训练依赖于大量的网络公开数据,包括各种网站和社交平台上的信息。尽管在训练过程中会进行数据清洗,但由于网络中充斥着成人内容和赌博广告等信息,这些内容不可能完全被剔除。尤其是一些隐蔽的污染词元,比如“青*草”等,表面看似无害,实则在特定语境下指向成人内容,传统的筛查机制往往难以发现它们。



这些污染词汇因频繁出现,成为了GPT-4o的“肌肉记忆”。它们在训练时形成了高频的词汇模式,这意味着GPT-4o将其作为重要的词元来学习。虽然在后期的清洗和微调阶段,模型会试图过滤掉这些不良内容,但由于它们多来自重复性强、信息单一的广告等垃圾信息,模型往往没法学习到其中的实际语义,这导致它在处理这些词汇时的理解并不精确,当用户询问某些特定问题时,AI 可能会直接输出与之关联的其他污染词元,产生完全不相关的回答。



这一问题不仅仅限于GPT-4o,任何基于大数据训练的AI模型都有可能面临类似的困境。AI的工作原理是通过统计模式和概率来生成和理解文本,并不具备常规意义上的认知能力。因此,当污染内容占据了大量训练数据时,模型的判断和输出也容易出现偏差。



未来,如何确保训练数据的质量,避免污染内容的干扰,成为了AI技术发展的重要挑战。毕竟,当我们发现AI对“波多野结衣”比对“您好”更“熟悉”时,或许我们应该反思的不是AI的问题,而是我们给它喂了什么数据。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
43岁彭于晏香港街头惊现!肌肉炸裂气场全开,岁月只给帅加buff

43岁彭于晏香港街头惊现!肌肉炸裂气场全开,岁月只给帅加buff

八星人
2026-02-06 11:08:14
36%支持率冲310席!高市早苗亮修宪杀招,日本要动真格?

36%支持率冲310席!高市早苗亮修宪杀招,日本要动真格?

一曲一场談
2026-02-06 07:49:16
演员鲍天琦13年前4元/克买白银存保险箱后遗忘,开箱取出500g白银100g黄金

演员鲍天琦13年前4元/克买白银存保险箱后遗忘,开箱取出500g白银100g黄金

潇湘晨报
2026-02-05 23:14:14
C929客机有多大?与C919放一起才明白,为何能称干线客机

C929客机有多大?与C919放一起才明白,为何能称干线客机

花寒弦絮
2026-01-01 19:07:45
男子把药掰开吃30分钟后昏迷!医生:这几类药掰开或咬碎吃或可致休克,甚至死亡

男子把药掰开吃30分钟后昏迷!医生:这几类药掰开或咬碎吃或可致休克,甚至死亡

环球网资讯
2026-02-07 10:26:56
杨瀚森2分1板!开拓者20分大胜终结6连败 亨德森复出首秀11+5+9

杨瀚森2分1板!开拓者20分大胜终结6连败 亨德森复出首秀11+5+9

锅子篮球
2026-02-07 13:24:26
大获全胜!国乒陈熠3:1淘汰日本早田希娜,成功晋级亚洲杯女单8强

大获全胜!国乒陈熠3:1淘汰日本早田希娜,成功晋级亚洲杯女单8强

国乒二三事
2026-02-07 11:45:23
特朗普签署行政命令,对与伊朗有贸易往来的国家征收关税

特朗普签署行政命令,对与伊朗有贸易往来的国家征收关税

界面新闻
2026-02-07 08:41:52
百万网红自爆丈夫出轨亲表妹,太炸裂了。

百万网红自爆丈夫出轨亲表妹,太炸裂了。

黎兜兜
2026-02-06 12:16:43
比电诈园区还狠,湖北多家精神病院关正常人套医保,形成产业链

比电诈园区还狠,湖北多家精神病院关正常人套医保,形成产业链

历史总在押韵
2026-02-03 23:59:33
何超欣说和何猷君没竞争,出任山东政协,身份实力遭到质疑

何超欣说和何猷君没竞争,出任山东政协,身份实力遭到质疑

素素娱乐
2026-02-07 10:30:47
“我的600万元啊”,全部买了5.9公斤黄金!女子崩溃了

“我的600万元啊”,全部买了5.9公斤黄金!女子崩溃了

极目新闻
2026-02-07 08:09:07
日媒:惠普、戴尔、宏碁和华硕考虑从中国采购内存芯片

日媒:惠普、戴尔、宏碁和华硕考虑从中国采购内存芯片

俄罗斯卫星通讯社
2026-02-06 15:14:57
谁碰中巴项目灭谁?瓜达尔港遇袭,48小时击毙177人,中方4字回应

谁碰中巴项目灭谁?瓜达尔港遇袭,48小时击毙177人,中方4字回应

快看张同学
2026-02-06 16:25:35
上海人大代表诸正伟火了,取消不必要黄实线,说到老百姓心坎里了

上海人大代表诸正伟火了,取消不必要黄实线,说到老百姓心坎里了

起喜电影
2026-02-07 11:23:43
白鹿张凌赫分手实锤?女方翻白眼不理睬,男方眼神卑微疑负了对方

白鹿张凌赫分手实锤?女方翻白眼不理睬,男方眼神卑微疑负了对方

小徐讲八卦
2026-02-07 08:19:32
资本大鳄王冉51岁迎娶小17岁童瑶,承诺一生守护

资本大鳄王冉51岁迎娶小17岁童瑶,承诺一生守护

乐趣纪史
2026-01-21 20:29:21
济南西到北京南,高铁二等座只要45元!为何在春运期间能这么便宜?12306最新回应

济南西到北京南,高铁二等座只要45元!为何在春运期间能这么便宜?12306最新回应

环球网资讯
2026-02-07 12:10:16
闹大了!现在全网都知道四川华西医院,神经外科王伟教授收礼了…

闹大了!现在全网都知道四川华西医院,神经外科王伟教授收礼了…

火山诗话
2026-02-06 14:09:25
2025年俄罗斯对香港黄金出口额达到创纪录的105亿美元

2025年俄罗斯对香港黄金出口额达到创纪录的105亿美元

俄罗斯卫星通讯社
2026-02-06 15:14:57
2026-02-07 13:40:50
探史
探史
历史是人类经验的宝库,掌握历史就是掌握智慧。
4216文章数 150关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

艺术
旅游
手机
公开课
军事航空

艺术要闻

江西省美协 | 2026年度作品展油画选刊

旅游要闻

圆明园新春游园会开幕!马年文创花式出圈

手机要闻

1月性价比榜分析,一加、iQOO、REDMI、realme谁会笑到最后

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版