网易首页 > 网易号 > 正文 申请入驻

谷歌发现大模型「领悟」现象!训练久了不再死记,多么痛的领悟

0
分享至

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

哪怕只有几十个神经元,AI也能出现泛化能力!

这是几个谷歌科学家在搞正经研究时,“不经意间”发现的新成果。

他们给一些很简单的AI模型“照了个X光”——将它们的训练过程可视化后,发现了有意思的现象:

随着训练时间增加,一些AI会从“死记硬背”的状态中脱离出来,进化出“领悟力”(grokking),对没见过的数据表现出概括能力。

这正是AI掌握泛化能力的关键。

基于此,几位科学家专门写了个博客,探讨了其中的原理,并表示他们会继续研究,试图弄清楚大模型突然出现强理解力的真正原因。

一起来看看。

并非所有AI都能学会“领悟”

科学家们先探讨了AI出现“领悟力”(grokking)的过程和契机,发现了两个现象:

  • 一、虽然训练时loss会突然下降,但“领悟”并不是突然发生的,它是一个平滑的变化过程。
  • 二、并非所有AI都能学会“领悟”。

先来看第一个结论。他们设计了一个单层MLP,训练它完成“数奇数”任务。

“数奇数”任务,指识别一串长达30位“0”“1”序列中的前3位是否有奇数个“1”。例如,在
000110010110001010111001001011中,前3位没有奇数个1;010110010110001010111001001011中,前3位有奇数个1。

在训练前期阶段,模型中各神经元的权重(下图中的热图)是杂乱无章的,因为AI不知道完成这一任务只需要看前3个数字。

但经过一段时间的训练后,AI突然“领悟了”,学会了只看序列中的前3个数字。具体到模型中,表现为只剩下几个权重会随着输入发生变化:

这个训练过程的目标被称之为最小化损失(提升模型输出准确率),采用的技术则被称之为权重衰减(防止模型过拟合)。

训练过程中,有一些权重与任务的“干扰数字”(30位序列的后27位)相关,下图可视化为灰色;有一些则与完成任务的“前3位数字”有关,下图可视化为绿色

当最后一个灰色权重降到接近0,模型就会出现“领悟力”,显然这个过程不是突然发生的。

再来看第二个结论。不是所有AI模型都能学会“领悟”。

科学家们训练了1125个模型,其中模型之间的超参数不同,每组超参数训练9个模型。

最后归纳出4类模型,只有2类模型会出现“领悟力”。

如下图,“白色”和“灰色”代表学不会“领悟”的AI模型,“黄色”和“蓝色”代表能“领悟”的AI模型。

总结概括规律就是,一旦权重衰减、模型大小、数据量和超参数的设置不合适,AI的“领悟力”就有可能消失——

以权重衰减为例。如果权重衰减太小,会导致模型过拟合;权重衰减太大,又会导致模型学不到任何东西。

嗯,调参是门技术活……

了解现象之后,还需要探明背后的原因。

接下来,科学家们又设计了两个小AI模型,用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。

更大的模型学会泛化的机制

科学家们分别设计了一个24个神经元的单层MLP和一个5个神经元的单层MLP,训练它们学会做模加法(modular addition)任务。

模加法,指(a + b) mod n。输入整数a和b,用它们的和减去模数n,直到获得一个比n小的整数,确保输出位于0~(n-1)之间。

显然,这个任务的输出是周期性的,答案一定位于0~66之间。

首先,给只有5个神经元的单层MLP一点“提示”,设置权重时就加入周期性(sin、cos函数)。

在人为帮助下,模型在训练时拟合得很好,很快学会了模加法。

然后,试着“从头训练”具有24个神经元的单层MLP,不特别设置任何权重。

可以看到,训练前期,这只MLP模型的权重(下面的热图)变化还是杂乱无章的:

然而到达某个训练阶段后,模型权重变化会变得非常规律,甚至随着输入改变,呈现出某种周期性变化:

如果将单个神经元的权重拎出来看,随着训练步数的增加,这种变化更加明显:

这也是AI从死记硬背转变为具有泛化能力的关键现象:神经元权重随着输入出现周期性变化,意味着模型自己找到并学会了某种数学结构(sin、cos函数)。

这里面的频率(freq)不是固定的一个值,而是有好几个。

之所以会用到多个频率(freq),是因为24个神经元的单层MLP还自己学会了使用相长干涉(constructive interference),避免出现过拟合的情况。

不同的频率组合,都能达到让AI“领悟”的效果:

用离散傅里叶变换(DFT)对频率进行隔离,可以发现和“数奇数”类似的现象,核心只有几个权重起作用:

总结来看,就像前面提到的“数奇数”任务一样,“模加法”实验表明,参数量更大的AI也能在这个任务中学会“领悟”,而这个过程同样用到了权重衰减

从5个神经元到24个神经元,科学家们成功探索了更大的AI能学习“领悟”的机制。

接下来,他们还计划将这种思路套用到更大的模型中,以至于最后能归纳出大模型具备强理解力的原因

不仅如此,这一成果还有助于自动发现神经网络学习算法,最终让AI自己设计AI。

团队介绍

撰写博客的作者来自谷歌的People + AI Research(PAIR)团队。

这是谷歌的一个多学科团队,致力于通过基础研究、构建工具、创建框架等方法,来研究AI的公平性、可靠性等。

一句话总结就是,让“AI更好地造福于人”。

博客地址:
https://pair.withgoogle.com/explorables/grokking/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闹大了!蔡斌抵达澳门被指不懂礼貌,中国女排主帅一细节没做好?

闹大了!蔡斌抵达澳门被指不懂礼貌,中国女排主帅一细节没做好?

阿牛体育说
2024-05-23 19:49:02
沉重哀悼!泣告:体育解说员田宗琦在泰国意外离世,终年41岁

沉重哀悼!泣告:体育解说员田宗琦在泰国意外离世,终年41岁

黑色柳丁
2024-05-22 23:41:48
卫龙魔芋爽标称15克实际仅8.9克,卫龙致歉:立即展开自查

卫龙魔芋爽标称15克实际仅8.9克,卫龙致歉:立即展开自查

天天财经116
2024-05-23 16:45:58
严格的空中管制,严重制约中国航空事业发展,中国机场数量只有美国的1/20

严格的空中管制,严重制约中国航空事业发展,中国机场数量只有美国的1/20

爆角追踪
2024-05-22 17:01:17
1952年沈毅被判处死刑,陈赓求情,毛主席:你去找周总理想办法

1952年沈毅被判处死刑,陈赓求情,毛主席:你去找周总理想办法

小金鱼的眼泪
2024-05-09 09:10:52
突然宣布:集体抵制!

突然宣布:集体抵制!

中吴网
2024-05-23 19:57:59
杭州多名网友晒出几年前的单子,太后悔!

杭州多名网友晒出几年前的单子,太后悔!

FM93浙江交通之声
2024-05-23 08:13:28
挑战中国高端摩托车市场 魏建军“小情怀”背后的大智慧

挑战中国高端摩托车市场 魏建军“小情怀”背后的大智慧

红星新闻
2024-05-21 10:53:22
摩根大通中国首席经济学家朱海斌:预计今年中国GDP增速为5.2%,人民币汇率将在7.2~7.3区间小幅震荡

摩根大通中国首席经济学家朱海斌:预计今年中国GDP增速为5.2%,人民币汇率将在7.2~7.3区间小幅震荡

每日经济新闻
2024-05-23 22:00:09
揭秘金正日后宫:有日本归侨,有朋友嫂子,唯独钟爱“技术书记”

揭秘金正日后宫:有日本归侨,有朋友嫂子,唯独钟爱“技术书记”

历史八卦社
2023-12-12 22:46:36
36岁白百何离婚5年后逆袭,背万元奢侈包坐地上,一个手机壳500块

36岁白百何离婚5年后逆袭,背万元奢侈包坐地上,一个手机壳500块

会火
2020-12-26 16:06:42
美国女优专找大叔拍作品:被多家养老院列入黑名单

美国女优专找大叔拍作品:被多家养老院列入黑名单

葫芦哥爱吐槽
2024-05-23 19:11:47
郭有才悲惨人设翻车,订婚仪式上的礼金太过抢眼!

郭有才悲惨人设翻车,订婚仪式上的礼金太过抢眼!

刚刚
2024-05-23 21:32:07
5月23日,女排运动员朱婷,悲痛发文!

5月23日,女排运动员朱婷,悲痛发文!

元气少女侃娱乐
2024-05-23 11:30:04
离职第3天,蔡英文首个行程公开,解放军巡岛阵型变了,信号危险

离职第3天,蔡英文首个行程公开,解放军巡岛阵型变了,信号危险

说天说地说实事
2024-05-23 16:25:14
阿拉法特的错误,造成了巴勒斯坦的苦难,中国当年的劝告他没有听

阿拉法特的错误,造成了巴勒斯坦的苦难,中国当年的劝告他没有听

文史达观
2024-05-23 14:23:18
菲打响首枪,中方加速增兵,黄岩岛形势大变,印度急调3舰入南海

菲打响首枪,中方加速增兵,黄岩岛形势大变,印度急调3舰入南海

娱乐叭叭君
2024-05-23 16:43:57
县领导班子成员实权排名真实顺序

县领导班子成员实权排名真实顺序

职场资深秘书
2024-05-19 09:03:09
京东员工内网留言“什么时候被pdd收购”被辞退,仅转正12天

京东员工内网留言“什么时候被pdd收购”被辞退,仅转正12天

数码圈麻辣烫
2024-05-23 08:03:07
今晚开始,北京每周集中夜查这件事——

今晚开始,北京每周集中夜查这件事——

新京报
2024-05-23 16:16:01
2024-05-24 04:06:44
量子位
量子位
追踪人工智能动态
9434文章数 175290关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

体育要闻

欧文,三十二而立

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

九鼎金租减值罗生门:郑州银行藏雷?

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

艺术
家居
手机
本地
公开课

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

家居要闻

光阴流年 摇曳爱恋

手机要闻

vivo S19系列再次被确认:三款版本,能打过OPPO Reno12系列吗?

本地新闻

强制措施展铁腕 “交叉执行”勇亮剑

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版