网易首页 > 网易号 > 正文 申请入驻

【人工智能】数据大饥荒:AI 如何吞噬互联网(以及接下来会发生什么)

0
分享至

他们说,数据就是新的石油,所以他们抓取了新旧网站。然后他们又抓取了 Reddit 帖子、Facebook 帖子和 Twitter 信息。当这些还不够时,他们甚至抓取了 YouTube 视频、电子书和报纸。他们要做什么:创建“大数据”来训练更大的人工智能。但你猜怎么着,尽管我们燃烧了数百年的化石燃料,但我们还没有耗尽。但训练、运行和编码人工智能的数据呢?我们快用光了。是的,尽管你不停地发布了数以百万亿计的猫视频和午餐照片。

没什么大不了的,你嘲笑道;大佬们会想出大数据的大解决方案。嗯,这很复杂。

休斯顿,我们遇到了大数据问题:这里有一个令人震惊的统计数据:据说,虽然 GPT-3.5 是在 1750 亿个参数上进行训练的,但 GPT-4 可能超过了 100 万亿个参数,这意味着大幅增加了 57,000% 以上。参数越多,复杂性就越大。猜猜两者通常都需要什么?是的,对数据的胃口更大!

想象一下:人工智能模型就像饥肠辘辘的青少年,他们翻遍了冰箱,吃掉眼前的一切,并且还在问“晚餐吃什么?”这些饥肠辘辘的数据野兽已经在网上吃遍了一切——合法的,但又不合法的。他们仍然很饿,任何旧数据都无法满足他们。

但有趣的是(也有点吓人):许多研究人员和观察家指出,训练尖端人工智能模型所需的高质量、多样化数据量正在快速增长。这就像试图填满一个奥林匹克规模的游泳池,而你的花园软管却一直保持同样的尺寸。哎呀!

我们为什么要关心?:可以这样想:如果人工智能系统是在有限或有偏见的数据上进行训练的,那么它们就像只看过浪漫喜剧的人试图预测真实关系是如何运作的。不太好,对吧?这可能会导致一些严重的尴尬时刻,例如面部识别系统对一个群体(即白人)有效,而对其他群体无效。

或者语言模型听起来像是专门从 Twitter 争论中学习英语的;还记得微软的 Twitter AI 机器人 Tay 吗?它最终成为了他们的《女巫布莱尔》项目?AI 助手对很多事情都了解很多,但常识却很少,就像ChatGPT 告诉我可以走过英吉利海峡的时候一样。

就像著名论文《论随机鹦鹉的危险》的作者在谈论大型语言模型 (LLM) 时说了这样的话:“嘿,这些人工智能模型只是花哨的模仿者,我们需要注意他们在抄袭什么!”

酷炫解决方案小组:解决方案就在眼前。有些解决方案近乎可笑:研究人员正在图书馆里寻找扫描书籍的方法。这有点乏味,因为扫描需要时间,而且劳动强度大;即使拥有庞大的劳动力,你能创造多少“数据”?与此同时,穿着实验室工作服(可能还有连帽衫)的聪明人一直在想出一些可行的解决方案,这些解决方案和问题本身一样巧妙。

数据体操,又称数据增强:假设您有一张猫的照片。现在,翻转、旋转、放大并添加一些滤镜。轰!您从一张图片中获得了多个训练示例。这就像为人工智能准备饭菜!此技巧有助于从现有数据中榨取更多精华。

根据不同研究人员的研究,智能数据增强可以将训练机器学习模型所需的数据减少多达 60%。他们证明,使用正确的增强技巧,您可以训练出性能几乎与在海量数据集上训练的模型一样好的模型。

伪造直到成功,又称合成数据:事实证明,硅谷的魔咒也可以应用于人工智能训练。研究人员使用一种名为 GAN(生成对抗网络)的奇特技术,创建看似真实的假数据。这就像拥有一台用于数据的 3D 打印机!需要罕见疾病的照片吗?还没有发生的交通事故?没问题——只需使用已有的内容生成它们即可!

NVIDIA 凭借其 GauGAN2 系统(没错,这个名字是对后印象派画家保罗·高更的双关语)在该领域取得了巨大成功,该系统可以将简单的书面短语或句子变成照片般逼真的杰作。来自该系统的合成数据甚至欺骗了专家。

那么,合成数据是数据稀缺问题的顶峰吗?也许不是。还记得我的 Sify 文章吗?标题是:复制的复制:人工智能生成的内容,对人工智能本身的威胁。正如我在文章中指出的那样,合成内容在某个点之后可能会导致模型崩溃。所以,不,还没有最终的解决方案。我们继续前进。

团队合作,又称联合学习:这就像玩大型多人游戏,每个玩家都对自己的牌守口如瓶。不同的组织可以一起训练 AI 模型,而无需分享他们的秘密(即敏感数据)。例如,医院可以合作创建更好的医疗 AI,而无需分享患者记录。这很棒,不是吗?

与许多很酷的 AI 产品一样,谷歌引入了联合学习的概念,并一直处于领先地位。如果你有一部 Android 手机,那么当 Gboard 无需“看到”你尴尬的短信就能预测下一个单词时,你就受益匪浅了。因此,人工智能不再需要本地服务器,而是可以在数十、数百、数千甚至数百万台设备上进行训练,就像谷歌的研究团队声称他们已经做到的那样,同时还能将数据保持在本地。

这些并不是人工智能施食处的唯一解决方案。接下来的大事从常识性到令人激动不已。

自学超级明星:想象一下,人工智能系统可以像人类一样学习——通过观察和弄清楚事情,而无需明确教导。这就是自我监督学习的全部内容。这就像让人工智能系统能够观看 YouTube 教程并从中真正学习一样!

Facebook AI Research(现为 Meta AI)展示了他们的 SEER 模型,该模型从十亿张没有任何标签的随机 Instagram 图片中学习。最酷的部分是什么?它的表现比在精心标记的数据集上训练的模型更好。SEER 通过未标记图像之间的关系生成数据标签,Facebook AI 首席科学家 Yann LeCun 表示,这被视为开发具有“常识”的 AI 的关键。接受吧,传统的训练方法!

混合搭配,又称迁移学习:这就像教某人骑自行车,然后说:“嘿,这些技能会帮助你骑摩托车!”人工智能模型可以将从一项任务中学到的知识应用到另一项任务中,从而需要更少的新数据来掌握新技能。

柏林 Meta 的研究科学家 Sebastian Ruder 在其 2019 年的博士论文中指出,迁移学习可以大大减少对特定任务数据的需求。有人愿意阅读 329 页的开创性论文来了解如何做到这一点吗?点击此链接,继续阅读。

不确定因素:Agentic AI:该领域的一些大咖,如 Ilya Sutskever 和 Yoshua Bengio 认为,未来 AI 系统可能会更加独立地学习,就像动物适应新环境一样。Bengio 在“系统 2 深度学习”方面的工作表明,我们可以创造出更像人类推理的 AI,需要更少的蛮力数据和更多的实际理解。这就像教 AI 钓鱼,而不仅仅是喂它鱼!

量子计算来拯救世界?:情节转折——正如我之前所写,量子计算可能是人工智能所需的秘密武器!谷歌的量子人工智能实验室一直在试验量子机器学习算法,这些算法可以从较小的数据集中学习。他们的前首席科学家约翰·马蒂尼斯博士表示,量子优势可以将基于量子计算的人工智能系统的数据需求降低几个数量级。不过,说实话,量子计算仍然更像是“未来技术”,而不是“下周发布”。

一个团队的数据稀缺可能是另一个团队的创造力源泉。人工智能的数据短缺正促使许多人发挥创造力,重新思考我们如何训练这些系统。从创建合成数据到教人工智能更有效地学习,一些令人惊叹的创新正在涌现。所以,这种可能对世界造成威胁的数据节食可能并不是那么糟糕。它可能只是帮助我们构建不仅更大,而且更智能的系统。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。加密货币市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

注我们,一起探索AWM

2024-12-18

领域,智能体能发挥出什么作用?

2024-12-15

2024-12-14

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026美加墨世界杯诞生首个乌龙,美国队小组赛首战领先巴拉圭

2026美加墨世界杯诞生首个乌龙,美国队小组赛首战领先巴拉圭

大象新闻
2026-06-13 09:46:01
中方深夜通告全球,菲律宾暴怒,菲防长彻底破防:我只是说了实话

中方深夜通告全球,菲律宾暴怒,菲防长彻底破防:我只是说了实话

飘逸语人
2026-06-13 00:32:59
随着韩国2-1捷克,赛后球迷不得不承认的4个事实,国足永远比不上

随着韩国2-1捷克,赛后球迷不得不承认的4个事实,国足永远比不上

生活新鲜市
2026-06-12 15:29:49
上映16天被观众赶出院线!网播也救不了它,事实证明烂片已无市场

上映16天被观众赶出院线!网播也救不了它,事实证明烂片已无市场

星宿影视鸭
2026-06-11 14:45:57
1981年乔清陆不满黎笋,携九人投奔我国,他们后来境遇如何

1981年乔清陆不满黎笋,携九人投奔我国,他们后来境遇如何

唠叨说历史
2026-06-10 15:52:08
中国男篮12人名单预测!队长更换,杨瀚森王俊杰首发,赛程出炉

中国男篮12人名单预测!队长更换,杨瀚森王俊杰首发,赛程出炉

老吴说体育
2026-06-13 11:52:19
高考后旗袍迎来“退货潮”,汗臭难闻 吊牌没摘,网友:犯了大忌

高考后旗袍迎来“退货潮”,汗臭难闻 吊牌没摘,网友:犯了大忌

丁丁鲤史纪
2026-06-12 15:15:25
少林寺新任住持释印乐,上任才10个月,少林寺被曝一下少800多万

少林寺新任住持释印乐,上任才10个月,少林寺被曝一下少800多万

叹为观止易
2026-06-10 11:49:16
白宫旁草坪数天内逐渐显现“8647”,被指涉嫌威胁暗杀特朗普,引发紧急调查

白宫旁草坪数天内逐渐显现“8647”,被指涉嫌威胁暗杀特朗普,引发紧急调查

红星新闻
2026-06-12 18:13:49
6月13日,万众期待的人社部2026年调整基本养老金的通知公布了吗

6月13日,万众期待的人社部2026年调整基本养老金的通知公布了吗

社保小达人
2026-06-13 11:27:00
悲哀!48岁妈妈因管教12岁女儿发生争执,母女俩同日先后跳楼身亡

悲哀!48岁妈妈因管教12岁女儿发生争执,母女俩同日先后跳楼身亡

墨兰史书
2026-06-12 20:40:04
Lisa现身世界杯开幕式,但现场出现大量空座,粉丝不敢拍摄观众席

Lisa现身世界杯开幕式,但现场出现大量空座,粉丝不敢拍摄观众席

芊手若
2026-06-13 10:22:21
悲哀!高考女生两天花光母亲3个月工资2万元,质问“我错了吗?”

悲哀!高考女生两天花光母亲3个月工资2万元,质问“我错了吗?”

火山詩话
2026-06-12 11:46:38
世界杯才踢两天,冠军已经能看出来了,不是阿根廷也不是法国

世界杯才踢两天,冠军已经能看出来了,不是阿根廷也不是法国

童叔不飙车
2026-06-13 01:58:22
这观赛时间挺友好,广东网友晒出边喝早茶边看世界杯视频

这观赛时间挺友好,广东网友晒出边喝早茶边看世界杯视频

懂球帝
2026-06-13 10:41:16
“孩子等了一个月的硬菜被你毁了!”家长给娃请假,被嘲自我感动

“孩子等了一个月的硬菜被你毁了!”家长给娃请假,被嘲自我感动

熙熙说教
2026-06-12 19:28:35
女子外卖备注牛蛙不要烧 结果收到一兜活泼乱跳的牛蛙 商家:以为考验是预制菜

女子外卖备注牛蛙不要烧 结果收到一兜活泼乱跳的牛蛙 商家:以为考验是预制菜

中国能源网
2026-06-12 11:09:03
一旦开战恐全军覆没?美专家已警告,解放军实力太强,美军打不过

一旦开战恐全军覆没?美专家已警告,解放军实力太强,美军打不过

誮惜颜a
2026-06-12 12:18:04
刘涛携女儿亮相意大利,母女同框像姐妹!18岁王紫嫣被赞气质出众

刘涛携女儿亮相意大利,母女同框像姐妹!18岁王紫嫣被赞气质出众

露珠聊影视
2026-06-12 15:54:04
希尔顿近照大变样引热议,当年甩了C罗的她,现在变成这样了?

希尔顿近照大变样引热议,当年甩了C罗的她,现在变成这样了?

绿茵八卦君
2026-06-12 15:35:04
2026-06-13 13:40:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

SpaceX上市首日破2万亿美元,马斯克再封神

头条要闻

美国4比1大胜 美国主导比赛巴拉圭疲于奔命让人意外

头条要闻

美国4比1大胜 美国主导比赛巴拉圭疲于奔命让人意外

体育要闻

东道主三战不败!美墨开门红加拿大零的突破

娱乐要闻

12年情怀碎一地!跑男接连翻车

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

2026重庆车展 长城炮Hi4-T正式上市售14.98万起

态度原创

旅游
时尚
房产
手机
公开课

旅游要闻

夏天就该这样过!大别山的夏天,从霍山大峡谷漂流的第一声尖叫开始。

参加高考被吐槽“耍大牌”,她真的有错吗?

房产要闻

海南最赚钱行业曝光!最快4年半,海口全款买三房!

手机要闻

Counterpoint发W20数据:苹果、华为增,剩下的全在降

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版