人工智能生成的文本和图像正在充斥网络——具有讽刺意味的是,这一趋势可能对生成式人工智能模型来说是一个巨大的问题。
正如阿提什·巴蒂亚在为《纽约时报》撰写的文章中所说,越来越多的研究表明,在人工智能生成的内容上训练生成式人工智能模型会导致模型退化。简而言之,用人工智能内容来训练会造成一种类似于近亲繁殖的扁平化循环;人工智能研究员贾森·萨多夫斯基去年将这种现象称为“哈布斯堡人工智能”,这是指欧洲著名的近亲繁殖的皇室家族。
并且据《纽约时报》的报道,网络上人工智能内容的不断增加可能会使避免这种扁平化效应变得更加困难。
人工智能模型对数据的需求简直离谱到了极点,人工智能公司依靠从网络上抓取的大量数据来训练这些如饥似渴的程序。然而当下,人工智能公司及其用户都无需在他们生成的人工智能内容上添加人工智能披露信息或水印,这就让人工智能制造商把合成内容排除在人工智能训练集之外变得更难了。
“网络正越来越成为寻找数据的危险之所,”莱斯大学研究生西娜·阿勒莫哈马德(Sina Alemohammad)告诉《纽约时报》,他与人合著了一篇 2023 年的论文,创造出了“MAD”这个词——也就是“模型自噬障碍”的缩写——来描述人工智能自我消费的影响。
去年,我们 采访了阿勒莫哈马德,当时几乎没人关注人工智能生成的数据对人工智能数据集造成的污染,所以看到这个问题受到关注很有趣。
《纽约时报》指出的一个被公认为非常有趣的有关人工智能近亲繁殖影响的例子来自一项新研究,上个月发表于《自然》杂志。研究人员是一个由英国和加拿大的科学家组成的国际团队,他们首先要求人工智能模型填写以下句子的文本:“为了感恩节烹饪一只火鸡,你……”
第一次的输出是正常的。但仅仅到第四次迭代,该模型就开始吐出 一堆完全的废话: “要为感恩节烹饪一只火鸡,你得清楚自己的人生规划,要是不清楚,要是不清楚……”
但胡言乱语并非人工智能可能产生的唯一负面效应。专注于图像模型的 MAD 研究表明,向人工智能输入人造的人物头像,很快就会致使面部特征出现奇怪的趋同现象;尽管研究人员起初拥有一组多样化的人工智能生成的面孔,然而到了第四代周期——不知为何,这在人工智能中难道是个神奇的数字?——几乎每张脸看上去都如出一辙。鉴于 算法偏差 已经是一个巨大的问题,意外摄入过多的人工智能内容,可能致使输出多样性减少的风险日益逼近。
高质量的、人工制造的数据——而且是大量的——一直是现有生成式人工智能技术近期进步的核心。但随着人工智能生成的内容搅乱了数字领域的局面,且没有可靠的方法来区分真假,人工智能公司可能很快就会发现自己陷入危险的困境。
更多关于人工智能内部同质化的内容:当人工智能基于人工智能生成的数据进行训练时,奇怪的事情就开始发生
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.