【人工智能】数据大饥荒：AI 如何吞噬互联网（以及接下来会发生什么）|算法|量子计算

【人工智能】数据大饥荒：AI 如何吞噬互联网（以及接下来会发生什么）

2025-01-14 06:07:47　来源: 七元宇宙

广东举报

分享至

他们说，数据就是新的石油，所以他们抓取了新旧网站。然后他们又抓取了 Reddit 帖子、Facebook 帖子和 Twitter 信息。当这些还不够时，他们甚至抓取了 YouTube 视频、电子书和报纸。他们要做什么：创建“大数据”来训练更大的人工智能。但你猜怎么着，尽管我们燃烧了数百年的化石燃料，但我们还没有耗尽。但训练、运行和编码人工智能的数据呢？我们快用光了。是的，尽管你不停地发布了数以百万亿计的猫视频和午餐照片。

没什么大不了的，你嘲笑道；大佬们会想出大数据的大解决方案。嗯，这很复杂。

休斯顿，我们遇到了大数据问题：这里有一个令人震惊的统计数据：据说，虽然 GPT-3.5 是在 1750 亿个参数上进行训练的，但 GPT-4 可能超过了 100 万亿个参数，这意味着大幅增加了 57,000% 以上。参数越多，复杂性就越大。猜猜两者通常都需要什么？是的，对数据的胃口更大！

想象一下：人工智能模型就像饥肠辘辘的青少年，他们翻遍了冰箱，吃掉眼前的一切，并且还在问“晚餐吃什么？”这些饥肠辘辘的数据野兽已经在网上吃遍了一切——合法的，但又不合法的。他们仍然很饿，任何旧数据都无法满足他们。

但有趣的是（也有点吓人）：许多研究人员和观察家指出，训练尖端人工智能模型所需的高质量、多样化数据量正在快速增长。这就像试图填满一个奥林匹克规模的游泳池，而你的花园软管却一直保持同样的尺寸。哎呀！

我们为什么要关心？：可以这样想：如果人工智能系统是在有限或有偏见的数据上进行训练的，那么它们就像只看过浪漫喜剧的人试图预测真实关系是如何运作的。不太好，对吧？这可能会导致一些严重的尴尬时刻，例如面部识别系统对一个群体（即白人）有效，而对其他群体无效。

或者语言模型听起来像是专门从 Twitter 争论中学习英语的；还记得微软的 Twitter AI 机器人 Tay 吗？它最终成为了他们的《女巫布莱尔》项目？AI 助手对很多事情都了解很多，但常识却很少，就像ChatGPT 告诉我可以走过英吉利海峡的时候一样。

就像著名论文《论随机鹦鹉的危险》的作者在谈论大型语言模型 (LLM) 时说了这样的话：“嘿，这些人工智能模型只是花哨的模仿者，我们需要注意他们在抄袭什么！”

酷炫解决方案小组：解决方案就在眼前。有些解决方案近乎可笑：研究人员正在图书馆里寻找扫描书籍的方法。这有点乏味，因为扫描需要时间，而且劳动强度大；即使拥有庞大的劳动力，你能创造多少“数据”？与此同时，穿着实验室工作服（可能还有连帽衫）的聪明人一直在想出一些可行的解决方案，这些解决方案和问题本身一样巧妙。

数据体操，又称数据增强：假设您有一张猫的照片。现在，翻转、旋转、放大并添加一些滤镜。轰！您从一张图片中获得了多个训练示例。这就像为人工智能准备饭菜！此技巧有助于从现有数据中榨取更多精华。

根据不同研究人员的研究，智能数据增强可以将训练机器学习模型所需的数据减少多达 60%。他们证明，使用正确的增强技巧，您可以训练出性能几乎与在海量数据集上训练的模型一样好的模型。

伪造直到成功，又称合成数据：事实证明，硅谷的魔咒也可以应用于人工智能训练。研究人员使用一种名为 GAN（生成对抗网络）的奇特技术，创建看似真实的假数据。这就像拥有一台用于数据的 3D 打印机！需要罕见疾病的照片吗？还没有发生的交通事故？没问题——只需使用已有的内容生成它们即可！

NVIDIA 凭借其 GauGAN2 系统（没错，这个名字是对后印象派画家保罗·高更的双关语）在该领域取得了巨大成功，该系统可以将简单的书面短语或句子变成照片般逼真的杰作。来自该系统的合成数据甚至欺骗了专家。

那么，合成数据是数据稀缺问题的顶峰吗？也许不是。还记得我的 Sify 文章吗？标题是：复制的复制：人工智能生成的内容，对人工智能本身的威胁。正如我在文章中指出的那样，合成内容在某个点之后可能会导致模型崩溃。所以，不，还没有最终的解决方案。我们继续前进。

团队合作，又称联合学习：这就像玩大型多人游戏，每个玩家都对自己的牌守口如瓶。不同的组织可以一起训练 AI 模型，而无需分享他们的秘密（即敏感数据）。例如，医院可以合作创建更好的医疗 AI，而无需分享患者记录。这很棒，不是吗？

与许多很酷的 AI 产品一样，谷歌引入了联合学习的概念，并一直处于领先地位。如果你有一部 Android 手机，那么当 Gboard 无需“看到”你尴尬的短信就能预测下一个单词时，你就受益匪浅了。因此，人工智能不再需要本地服务器，而是可以在数十、数百、数千甚至数百万台设备上进行训练，就像谷歌的研究团队声称他们已经做到的那样，同时还能将数据保持在本地。

这些并不是人工智能施食处的唯一解决方案。接下来的大事从常识性到令人激动不已。

自学超级明星：想象一下，人工智能系统可以像人类一样学习——通过观察和弄清楚事情，而无需明确教导。这就是自我监督学习的全部内容。这就像让人工智能系统能够观看 YouTube 教程并从中真正学习一样！

Facebook AI Research（现为 Meta AI）展示了他们的 SEER 模型，该模型从十亿张没有任何标签的随机 Instagram 图片中学习。最酷的部分是什么？它的表现比在精心标记的数据集上训练的模型更好。SEER 通过未标记图像之间的关系生成数据标签，Facebook AI 首席科学家 Yann LeCun 表示，这被视为开发具有“常识”的 AI 的关键。接受吧，传统的训练方法！

混合搭配，又称迁移学习：这就像教某人骑自行车，然后说：“嘿，这些技能会帮助你骑摩托车！”人工智能模型可以将从一项任务中学到的知识应用到另一项任务中，从而需要更少的新数据来掌握新技能。

柏林 Meta 的研究科学家 Sebastian Ruder 在其 2019 年的博士论文中指出，迁移学习可以大大减少对特定任务数据的需求。有人愿意阅读 329 页的开创性论文来了解如何做到这一点吗？点击此链接，继续阅读。

不确定因素：Agentic AI：该领域的一些大咖，如 Ilya Sutskever 和 Yoshua Bengio 认为，未来 AI 系统可能会更加独立地学习，就像动物适应新环境一样。Bengio 在“系统 2 深度学习”方面的工作表明，我们可以创造出更像人类推理的 AI，需要更少的蛮力数据和更多的实际理解。这就像教 AI 钓鱼，而不仅仅是喂它鱼！

量子计算来拯救世界？：情节转折——正如我之前所写，量子计算可能是人工智能所需的秘密武器！谷歌的量子人工智能实验室一直在试验量子机器学习算法，这些算法可以从较小的数据集中学习。他们的前首席科学家约翰·马蒂尼斯博士表示，量子优势可以将基于量子计算的人工智能系统的数据需求降低几个数量级。不过，说实话，量子计算仍然更像是“未来技术”，而不是“下周发布”。

一个团队的数据稀缺可能是另一个团队的创造力源泉。人工智能的数据短缺正促使许多人发挥创造力，重新思考我们如何训练这些系统。从创建合成数据到教人工智能更有效地学习，一些令人惊叹的创新正在涌现。所以，这种可能对世界造成威胁的数据节食可能并不是那么糟糕。它可能只是帮助我们构建不仅更大，而且更智能的系统。

免责声明：

本文所发布的内容和图片旨在传播行业信息，版权归原作者所有，非商业用途。如有侵权，请与我们联系。所有信息仅供参考和分享，不构成任何投资建议。加密货币市场具有高度风险，投资者应基于自身判断和谨慎评估做出决策。投资有风险，入市需谨慎。

关注我们，一起探索AWM！

2024-12-18

领域，智能体能发挥出什么作用？

2024-12-15

2024-12-14

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.