在一项有趣的新研究中,莱斯大学和斯坦福大学的研究人员发现,将人工智能生成的内容输入人工智能模型似乎会导致其结果质量下降。如果你用足够多的人工智能生成的内容来训练生成式人工智能模型,包括大型语言模型和图像生成器,这种类似衔尾蛇的自我消耗将破坏模型的数字大脑。
或者,用这些科学家的话来说,它会使模型达到“MAD”(疯狂)的状态。
研究人员写道:“用于图像、文本和其他类型的数据的生成式人工智能算法的快速发展导致了使用合成数据来训练下一代模型的诱惑。“这个过程的重复创造了一个自噬('自我吸收')循环,其特性知之甚少。
研究人员补充说:“我们在所有情况下的主要结论是,在每一代自噬周期中,如果没有足够的新鲜真实世界数据,未来的生成模型注定会逐渐降低质量(准确性)或多样性(保留率)。我们称这种情况为'模型自噬障碍'(MAD)。
换句话说,如果没有“新鲜的真实世界数据”,也就是说,如果没有原创的人类工作而不是人工智能产生的东西,我们可以预期结果会急剧恶化。研究人员说,随着对合成内容的反复训练,训练模型外围的信息将开始消失。该模型将开始从日益趋同和不那么多样化的数据中汲取灵感,因此,它很快就会开始分解为自身。
研究人员创造的MAD一词反映了这种自我吸收的过程。
对结果持保留态度,因为这项工作尚未经过同行评审。但应该指出的是,结果非常有说服力。正如论文中所详述的,测试AI模型只进行了五轮合成内容训练,之后其结果开始出现裂缝。
如果事实证明人工智能真的在摧毁其他人工智能,那将导致严重的后果。
正如针对 OpenAI 的众多诉讼清楚地表明的那样,AI 模型已经通过在线收集大量现有数据进行了普遍训练。此外,通常情况下,您提供给模型的数据越多,它就越好。因此,人工智能开发者总是渴望新的教育材料,而在人工智能互联网日益饱和的时代,这样的数据收集将变得越来越危险。与此同时,人工智能正被大众和谷歌等大公司用来创建内容,而谷歌和Microsoft正在将人工智能引入他们的搜索服务中。
因此,可以说人工智能已经深深地融入了互联网的基础设施。他创造内容,试图分析它,并自己吸收它。互联网上的合成内容越多,人工智能公司就越难确保他们的训练数据库不包含这些内容,这可能会使开放互联网的质量和结构面临风险。
研究人员在他们的论文中写道:“由于生成式AI模型的训练数据集通常来自互联网,因此当前的AI模型在不知不觉中是在越来越多的AI合成数据上进行训练的。
他们补充说:“以前,人类的文本来源现在越来越多地由生成式人工智能模型创建,从用户评论到新闻网站,通常没有表明文本是合成的。“随着生成模型的使用继续快速增长,这种情况只会加速。
这种情况确实令人担忧,但幸运的是,正如弗朗西斯科·皮雷斯(Francisco Pires)所指出的那样,有一些方法可以在一定程度上限制这种未来,整个互联网世界将与人工智能模型一起成为MAD。
这些发现还提出了一个问题,即这些系统在没有人工干预的情况下有多大用处。从这里给出的结果来看,答案似乎是:不是很有帮助。在某种程度上,它给了一些希望。毕竟,机器将无法完全取代我们——它们的大脑会融化!
但另一方面,当人工智能接管世界时,它可能不会消灭人类,而只是将我们带入内容农场,在那里我们都将被迫写文章以保持生成模型的平稳运行。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.