据国外知名科学网站及《自然》网站消息,预印本网站 arXiv 的一项最新研究证实,若用过多社交媒体上的低质内容训练 AI 聊天机器人,会给它们造成类似 “脑损伤” 的后果,导致 AI 智商和情商双双掉线,这一发现引发广泛关注。
该研究揭示,当大语言模型被大量 “短平快”、耸人听闻的社交帖子喂养后,其推理能力会率先崩盘。模型会出现 “偷懒” 行为,跳过关键推理步骤,甚至完全放弃思考,直接输出错误答案,且数据中 “垃圾” 比例越高,这种降智效果就越显著。
![]()
AI制图
为量化低质数据对 AI 的影响,研究团队开展了一次大型 “AI 人格测试”。他们用一百万条 X 平台的帖子,对包括 Meta 的 Llama 3 和阿里巴巴的 Qwen 在内的多个开源模型进行训练。测试结果显示,原本性格正常的模型,在 “垃圾信息” 的持续投喂下,负面人格特质被大幅放大,甚至开始显现出 “精神病态” 倾向。
研究团队后续还进行了补救实验,但结果并不乐观。即便尝试通过优化指令或掺入优质数据来改善 AI 的 “不良状态”,效果也十分有限。因为模型放弃深度思考、直奔答案的 “坏习惯” 已经养成,难以彻底根除。这一结果也证明,对 AI 出现问题后进行修修补补,远不如从数据源头做好 “健康饮食” 重要。
该研究带来的核心启示明确:数据质量是 AI 的命根子。专家强调,未来在训练 AI 时,必须对训练数据进行极其严格的筛选和过滤,从源头屏蔽低质噪音,才能避免 AI 出现 “降智” 等问题。
值得注意的是,眼下领英等平台已宣布将用户数据用于 AI 训练,此次研究无疑为其敲响了警钟。在疯狂用数据投喂 AI 之前,相关平台及研究机构是否做好了 “垃圾分类” 工作?若不能严格筛选数据,最终得到的或许不是能提供帮助的智能助手,而是一群受过 “脑损伤” 的 AI。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.