网易首页 > 网易号 > 正文 申请入驻

没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰

0
分享至


新智元报道

编辑:alan

【新智元导读】近日,又一惊人结论登上Hacker News热榜:没有指数级数据,就没有Zero-shot!多模态模型被扒实际上没有什么泛化能力,生成式AI的未来面临严峻挑战。

生成式人工智能已经触及峰顶了吗?

在大模型正火的时候提这个问题,似乎不合时宜。

毕竟,随着数据和模型规模的增大、计算能力的增加,我们似乎不再怀疑拥有超强人工智能的未来。

——但是!来自University of Tübingen、剑桥和牛津大学的最新研究,用实验告诉我们:没有指数级数据,就没有Zero-shot!


论文地址:https://arxiv.org/pdf/2404.04125

换句话说,模型要想达到AGI水平,所需的训练数据量是我们无法提供的。

根据实验数据,模型未来的性能提升将越来越缓慢,最终会因为拿不到指数级的数据而触及瓶颈。

——所以,你以为大模型真的实现了zero-shot,真的在吸收和记忆的基础上,涌现了推理甚至创新,实际上都是人家见过千万次,早已倒背如流的答案。

你以为是素质教育出英才,其实人家走的是题海战术、应试教育路线。

Youtube上239万订阅的Computerphile频道,根据这篇文章的结果发表了类似的看法和担忧,立时受到广泛关注。


视频地址:https://www.youtube.com/watch?v=dDUC-LqVrPU

对数魔咒

当前,由于大模型展现出的zero-shot learning能力,人们乐观地预计大模型的性能可以相对于训练数据呈指数级增长,——这也是人们对AGI抱有期望的原因。

就算再退一步,两者呈线性关系,我们也能接受,毕竟只要多花时间、多花钱、多喂数据,到达了某个临界值之后,大模型就将无所不能。

但是,这篇论文指出,实际上训练数据(样本或概念的数量)和性能(在下游任务上对应概念的表现)呈对数关系。


也许现下的模型还能在一段时间内快速提升,但以后会越来越难,付出的代价也会越来越大,

——比如万亿token换来1%的性能,比如GPT-5,6,7的性能可能没啥差别。

文章通过大量的实验得到了类似的数据和图表,


这些曲线的走向一致,证明了在当前的情况下,无论用什么样的训练方法、什么样的数据集、执行什么样的下游任务,都难逃对数关系的魔咒。


而且,虽然这篇工作针对于多模态模型,但LLM也会有相同的问题,比如我们熟知的幻觉就是一种表现形式,面对训练数据中没有的东西,LLM就开始胡编。

另一方面,训练数据的分布往往都是不均匀的,有些种类的数据频度高,那么对应到推理结果上的表现自然就好。

这种情况被称为长尾分布(Long-Tail Distribution),指在分类任务中,训练数据的分布呈现长尾形状,少数类别拥有大量样本,而大多数类别只有很少的样本。


这种现象在现实世界中很常见,也就加剧了前面提到的指数级数据的难题。

当下模型的训练数据主要来自于互联网,咱也不知道数据是不是已经被吃得差不多了,反正这种指数级关系总会有无法满足的一天。

未来,我们可能需要「something else」,比如新的方法、新的数据表示、或者是不同于Transformer的新架构。

网友热议

除了油管上一天23万的播放量,Hacker News上也是热闹非凡。

「这感觉像是当前人工智能炒作的最坏结果」。


网友表示,我们基本上已经把整个互联网都喂给模型了,这几乎是目前能得到的最大的数据集,而且由于AI生成的垃圾数据也在不断进入互联网,以后可能也不会有更大更好的数据集了。

给大模型喂这些数据花费了数十亿美元,却只得到了有一些用处,又没有太大用处的人工智能。——如果这些人力物力财力花在别的地方,我们可能会过得更好。

对于人工智能产生垃圾数据所带来的影响,网友们表示赞同。


也有网友认为,数据还是有的,但是很多人正在利用技术手段,拒绝人工智能爬取自己的数据。


「这意味着谷歌搜索变得更糟,生成式AI变得更糟,互联网变得更糟」。

还有网友表示,相比于互联网上那点数据,现实世界要复杂几个数量级。


不过,对于Computerphile在视频中表达的略显悲观的结论,有大佬表示质疑。

前谷歌高级工程师、现任RekaAI CMO的Piotr Padlewski认为:

首先,缩放定律告诉我们,模型越大,获得相同性能所需的样本就越少。 其次,这篇论文研究的是零样本学习(zero-shot),而不是in-context learning。即使是训练数据中不常见/不存在的主题,只要在上下文中提供示例和说明,LLM也能理解。


「我认为没有人期望LLM能在zero-shot的情况下证明出P=NP,可能发生的情况是利用Agent找到所有相关文件并从中学习。」

「首先需要开发更好的算法和智能体,但我们也需要更好的基础模型。」

没有指数级数据,就没有Zero-shot

目前,人们对于AI发展的一个主要争论是,规模的扩大能带来真正的泛化能力吗?看了一辈子猫狗的大模型真的能认识大象吗?

——大模型的zero-shot似乎已经为自己正名。

Zero-shot learning (ZSL) is a fascinating machine learning scenario. In ZSL, an AI model is trained to recognize and categorize objects or concepts without having seen any examples of those categories or concepts beforehand.

不需要在训练集中出现某个分类的样本,凭借已经学到的语义信息,就可以识别从来没有见过的类别。

比如下面这个例子,模型在之前的训练中学到了马的形状、老虎的条纹和熊猫的黑白色,


这时你再告诉模型:斑马长得像马,并且有黑白相间的条纹,模型就可以在从没有见过斑马的情况下对其进行分类。

当前,CLIP模型是零样本图像识别,和图像文本检索的事实标准,而Stable Diffusion则是零样本文生图的事实标准。


CLIP:把文本decoder和图像decoder(VIT)对应到同一个嵌入空间

——不过这种zero-shot的泛化能力,究竟在多大程度上是靠谱的?或者说:这种能力的代价是什么?

实验

为了回答这个问题,研究人员决定用实验数据说话。

首先,问题涉及两个主要因素的比较分析:

(1)模型在各种下游任务中的性能 (2)测试概念在其预训练数据集中的频率

研究人员从涵盖分类、检索和图像生成的27个下游任务中,提取出4029个概念,根据这些概念来评估模型性能。

概念:定义为试图在预训练数据集中分析的特定对象或类别。 对于零样本分类任务,概念表示类名,例如ImageNet中的1000个类别(金鱼、黄貂鱼等)。 对于图像文本检索和图像生成任务,概念表示测试集标题或生成提示中出现的所有名词,比如在标题「一个男人戴着帽子」中,提取出「男人」和「帽子」作为相关概念。


实验选取了五个具有不同尺度、数据管理方法和来源的大规模预训练数据集(CC-3M、CC-12M、YFCC-15M、LAION-Aesthetics、LAION-400M),以及具有不同架构和参数大小的10个CLIP模型,和24个文生图(T2I)模型。



评估指标

对于分类任务,计算平均零样本分类精度。对于检索,使用文本到图像和图像到文本检索任务的传统指标来评估性能(Recall@1,Recall@5,Recall@10)。


而在文生图这边,评估包括图像-文本对齐和美学分数(aesthetic score)。

使用预期和最大CLIP分数来衡量图像-文本对齐,并使用预期和最大美学分数来衡量美观度。


在以上的16个图中,我们可以观察到概念频率和zero-shot性能之间,存在明显的对数关系。

实验考虑了多个不同的维度:

(i)判别模型与生成模型, (ii)分类与检索任务, (iii)模型架构和参数尺度, (iv)不同方法和尺度的预训练数据集, (v)不同的评估指标, (vi)零样本分类的不同提示策略, (vii)仅从图像或文本域中分离的概念频率

而结果表明,对数线性缩放趋势在所有七个实验维度上都持续存在。

因此,CLIP和Stable Diffusion等多模态模型令人印象深刻的zero-shot性能,在很大程度上归因于其庞大的预训练数据集,而并不是真正的零样本泛化。

恰恰相反,这些模型需要一个概念的数据呈指数级增长,才能以线性方式提高它们在与该概念相关的任务上的性能,——极端的样本低效率。

参考资料:

https://arxiv.org/abs/2404.04125


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯网红在中国火了,160斤身材满分,被称为俄版卡戴珊

俄罗斯网红在中国火了,160斤身材满分,被称为俄版卡戴珊

新游戏大妹子
2024-06-14 11:39:38
36岁女护士新婚夜,对丈夫说:你的东西就是我的东西!

36岁女护士新婚夜,对丈夫说:你的东西就是我的东西!

娱乐洞察点点
2024-06-14 18:08:29
闹大了!江苏河道水位下降,密密麻麻的地笼露出水面,评论区炸锅

闹大了!江苏河道水位下降,密密麻麻的地笼露出水面,评论区炸锅

椰青美食分享
2024-06-14 02:42:18
目标欧洲杯夺冠!65岁名帅发布4条禁令:凌晨0点30必须入睡

目标欧洲杯夺冠!65岁名帅发布4条禁令:凌晨0点30必须入睡

叶青足球世界
2024-06-14 10:40:33
美国会通过法案,否定“西藏自古以来是中国一部分”

美国会通过法案,否定“西藏自古以来是中国一部分”

仰望沧海
2024-06-13 11:50:29
慈禧嘴里那颗8亿的夜明珠,下落已经查明:被宋美龄卖给一位大亨

慈禧嘴里那颗8亿的夜明珠,下落已经查明:被宋美龄卖给一位大亨

青栀伊人
2024-06-12 22:22:44
中国房地产最健康的城市,也降了

中国房地产最健康的城市,也降了

壹地产
2024-06-13 09:45:26
赖冠霖发文官宣退圈!决定转变赛道

赖冠霖发文官宣退圈!决定转变赛道

综艺拼盘汇
2024-06-14 17:12:01
黄一鸣押对宝了,王家不会亏待女儿!透露生孩子有和王思聪商量!

黄一鸣押对宝了,王家不会亏待女儿!透露生孩子有和王思聪商量!

琪琪侃娱
2024-06-14 16:27:25
柳州交警出动无人机大队进村督导村民戴头盔,网友:不敢出门了

柳州交警出动无人机大队进村督导村民戴头盔,网友:不敢出门了

三月柳
2024-06-13 11:36:07
日本17岁女高中生被推下桥致死,只因在网上用了别人的一张照片?两名女子被警方逮捕

日本17岁女高中生被推下桥致死,只因在网上用了别人的一张照片?两名女子被警方逮捕

日本物语
2024-06-13 20:27:57
22场1球1助!归化大反转:20岁华裔小将狮子大开口,效力国足泡汤

22场1球1助!归化大反转:20岁华裔小将狮子大开口,效力国足泡汤

侃球熊弟
2024-06-14 09:13:30
曾经的两个好朋友,已成两敌人,再想买先进装备是没地方可买了

曾经的两个好朋友,已成两敌人,再想买先进装备是没地方可买了

历史与财经
2024-06-12 12:52:02
吴晓求教授严正声明

吴晓求教授严正声明

人大重阳
2024-06-14 14:32:37
哈马斯发言人:没有人知道在扣的120多名以色列人质还有多少活着

哈马斯发言人:没有人知道在扣的120多名以色列人质还有多少活着

红星新闻
2024-06-14 12:59:13
告诉你真实的台湾,2300万人口小岛却无比发达,是时候公开原因了

告诉你真实的台湾,2300万人口小岛却无比发达,是时候公开原因了

咖啡店的老板娘
2024-06-14 16:37:25
年中盘点| 2024年上半年新人(下篇)

年中盘点| 2024年上半年新人(下篇)

孤独的独角兽影视
2024-06-14 10:15:02
为何中国患癌率较高?2样东西日本人基本不碰,国人却比较喜欢

为何中国患癌率较高?2样东西日本人基本不碰,国人却比较喜欢

今日养生之道
2024-06-14 07:30:58
CCTV5直播!德媒预测揭幕战首发:德国2亿齐飞 苏格兰英超球员多

CCTV5直播!德媒预测揭幕战首发:德国2亿齐飞 苏格兰英超球员多

智道足球
2024-06-14 14:49:24
回顾:女子相亲不化妆,完全素颜,男子一眼心动,网友:眼光毒辣

回顾:女子相亲不化妆,完全素颜,男子一眼心动,网友:眼光毒辣

夫妻谈资局
2024-06-14 19:17:56
2024-06-14 21:44:49
新智元
新智元
AI产业主平台领航智能+时代
11151文章数 65536关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

男子赤膊趴车头救人:湍急水流淹车头 司机昏迷水及腰

头条要闻

男子赤膊趴车头救人:湍急水流淹车头 司机昏迷水及腰

体育要闻

我们为什么还爱欧洲杯?

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

“石油美元”协议走向终结 影响几何?

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

时尚
艺术
旅游
数码
家居

少女和熟女,都被这件单品“硬控”了!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

旅游要闻

中国女游客在泰国遭假冒司机性侵 嫌疑人竟是惯犯

数码要闻

LG 推出 G4 系列 OLED 电视新品:65 英寸 23999 元

家居要闻

空谷来音 朴素留白的侘寂之美

无障碍浏览 进入关怀版