网易首页 > 网易号 > 正文 申请入驻

谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。

谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的tokenizer所致,而是没有足够的空间来存储用于计数的向量

数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5也无法幸免。

如果再进一步,想要找到出现频率最高的一个词,更是难如登天,即便能蒙对给出的具体数量也是错的。

有人认为是词汇的token化导致了大模型看到的“词”和我们的看法不一致,但论文表明,实际情况并不是这么简单。

想数清单词,嵌入维度要够大

Transformer的计数能力与其嵌入维度d和词汇量m(指词汇表中词的数量,非序列长度)的关系密切相关。

详细的原因,就涉及到了Transformer统计词频时的机制。

Transformer通过一种特殊的嵌入方式,利用嵌入空间的线性结构,巧妙地将计数问题转化为了向量加法

具体说是将每个词映射到一个独特的正交向量上,在这种表示下,词频可以通过对这些正交向量求和来简单地计算

然而,这种机制的局限性在于,它要求词汇表中的每个词都有一个独立的正交向量表示,因此嵌入维度必须大于词汇量

嵌入维度不足时,词向量就无法保持正交性,词频的线性叠加也就无法实现了。

此时Transformer要实现计数,可以通过注意力机制(CountAttend)来实现,但需要一个随序列长度n线性增长的大型“逆转MLP”层。

具体来说,模型首先通过注意力赋予被查询词较大的权重,再利用位置编码将注意力权重提取到值向量的最后一个元素,这个元素实际记录了被查询词的出现频率的倒数。

这意味着,模型需要一个大小为O(n)的MLP层来计算1/x函数(x为某个词出现的次数)。

但进一步分析表明,任何常数层ReLU网络都无法在o(n)的神经元数量下逼近1/x函数

因此,对于固定规模的Transformer,这种方案无法推广到任意长度的序列。当序列长度超出训练集长度时,模型的计数能力会急剧恶化。

长度非主要因素,词汇表中数量是关键

为了验证这一结论,作者一共进行了两个实验。

第一个实验,是在一个从头开始训练的Transformer模型上进行的,具体有关参数如下:

  • 使用一个由两个Transformer层、四个注意力头组成的标准模型;
  • 嵌入维度d的取值范围为8到128;
  • 对每个固定的d,词汇量m从5到150变化,分别测试20个不同的值;
  • 模型使用Adam优化器从零开始训练,批量大小为16,学习率为10^-4,训练10万步。

训练和评测数据通过随机采样生成。首先从大小为m的词汇表中均匀采样n个词,构成一个长度为n的序列。

序列长度n设置为n=10m,平均每个词出现的次数固定为10次,一共使用了1600个样本进行测试。

作者发现,随着词汇量的增加,模型的计数准确率呈阶梯状下降,临界点恰好出现在词汇量超过嵌入维度的时刻

为了进一步量化模型的计数能力,作者定义了一个指标m_thr,表示模型的计数准确率下降到80%时的临界词汇量。

直观地说,m_thr反映了在给定嵌入维度下,模型可以“承受”的最大词汇量,m_thr越大说明模型的计数能力越强。

结果显示,对于计数(QC)和找出最高频词(MFC)的任务,m_thr都随嵌入维度d的增大而近似线性增长

第二个实验则是在预训练的Gemini 1.5模型上开展,在这个实验中,作者更关注词汇量对计数能力的影响。

他们设计了一系列计数任务,每个任务使用不同大小的词汇表,并把每个词在序列中出现的平均次数固定。

这意味着,在实验组当中,词汇量越大,序列长度也就越长。

作为对照,作者还设置了一个“Binary Baseline”,词汇表中只有固定为两个词,但序列长度与主实验组相同。

这样一来,就可以判断出带来模型计数误差的究竟是词汇量还是序列长度。

实验结果显示,随着词汇量的增加,Gemini 1.5在计数任务上的平均绝对误差显著上升,而“Binary Baseline”的误差要低得多。

这表明,词汇量的增加,而非序列长度的增长,是导致大模型计数能力下降的主要原因。

不过作者也表示,虽然这项研究一定程度上划定了大模型计数能力的上下界,但这些界限还不够紧致,距离理想的结果还有一定差距。

同时,作者也没有探究增加Transformer的层数是否会改变这一结论,需要未来开发新的技术工具才能进一步验证。

论文地址:
https://arxiv.org/abs/2407.15160

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
肝癌为什么越来越多?建议:天热宁可打牌,也别做这5件事

肝癌为什么越来越多?建议:天热宁可打牌,也别做这5件事

芹姐说生活
2026-07-03 23:53:19
7月5日足球世界杯推荐:精选4场赛事解析,巴西vs挪威,含比分!

7月5日足球世界杯推荐:精选4场赛事解析,巴西vs挪威,含比分!

足球二串大王
2026-07-05 08:23:20
根本不是安全问题?伊朗最高领袖缺席父亲葬礼,安全理由能否服众

根本不是安全问题?伊朗最高领袖缺席父亲葬礼,安全理由能否服众

触摸史迹
2026-07-05 02:44:15
美国建国250周年,日本用无人机展示高市早苗依偎特朗普画面,美网友:我们用核弹炸他们,他们却对我们这么好

美国建国250周年,日本用无人机展示高市早苗依偎特朗普画面,美网友:我们用核弹炸他们,他们却对我们这么好

三湘都市报
2026-07-04 15:40:53
“超跑”遇到“大巴”也难受!姆巴佩点射助法国淘汰巴拉圭,上半场被激怒疑似爆粗口

“超跑”遇到“大巴”也难受!姆巴佩点射助法国淘汰巴拉圭,上半场被激怒疑似爆粗口

红星新闻
2026-07-05 08:02:16
4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

白宸侃片
2026-07-05 00:26:23
风水轮流转!中国网友集体反对欧洲吹空调,奥巴马回旋镖砸中西方

风水轮流转!中国网友集体反对欧洲吹空调,奥巴马回旋镖砸中西方

丁丁鲤史纪
2026-07-04 17:44:46
广州男子立遗嘱把房产留给二婚妻女及继子,去世后八旬母亲为争产闹上法庭,儿媳举证婆婆月入至少2万元,法院判决:老人不享有继承份额

广州男子立遗嘱把房产留给二婚妻女及继子,去世后八旬母亲为争产闹上法庭,儿媳举证婆婆月入至少2万元,法院判决:老人不享有继承份额

环球网资讯
2026-07-03 22:33:17
太离谱!林更新只是来客串综艺,硬生生把飞行嘉宾玩成主场

太离谱!林更新只是来客串综艺,硬生生把飞行嘉宾玩成主场

乡野小珥
2026-07-05 08:52:15
大V怒批留学生!建议校领导各领一个留学生回家,评论区一片支持

大V怒批留学生!建议校领导各领一个留学生回家,评论区一片支持

谭谈社会
2026-07-04 11:26:09
发现一个扎心的真相:穷人的富养是带孩子吃喝玩乐,喂大了孩子的胃口;富人的富养是教孩子看清世界的真相和规则,掌握两条解决问题的方法

发现一个扎心的真相:穷人的富养是带孩子吃喝玩乐,喂大了孩子的胃口;富人的富养是教孩子看清世界的真相和规则,掌握两条解决问题的方法

心理观察局
2026-07-05 07:00:10
加拿大队长5场只踢1场!球迷怒冲官推:他是来卖票的 撤他队长袖标

加拿大队长5场只踢1场!球迷怒冲官推:他是来卖票的 撤他队长袖标

风过乡
2026-07-05 06:26:17
球员没放弃,泰山队教练组先投了,韩鹏握手被拒,买乌郎无需道歉

球员没放弃,泰山队教练组先投了,韩鹏握手被拒,买乌郎无需道歉

替补席看球
2026-07-05 09:39:10
姆巴佩:我可以把手伸进屎里!谢尔基:姆总别伸手 一头扎进去

姆巴佩:我可以把手伸进屎里!谢尔基:姆总别伸手 一头扎进去

念洲
2026-07-05 08:46:09
63岁心梗老人去看一颗牙,宝鸡大团圆口腔医院一次拔了12颗种10颗,刷光18800元还欠6200元

63岁心梗老人去看一颗牙,宝鸡大团圆口腔医院一次拔了12颗种10颗,刷光18800元还欠6200元

大风新闻
2026-07-04 18:31:09
人均30元的“穷鬼版迪士尼”,截胡迪士尼的生意

人均30元的“穷鬼版迪士尼”,截胡迪士尼的生意

金错刀
2026-07-04 14:21:19
别再低估忻口血战!晋绥军9个炮兵团全员死战,打废日军巅峰精锐

别再低估忻口血战!晋绥军9个炮兵团全员死战,打废日军巅峰精锐

近史谈
2026-07-04 17:53:44
中国排协官宣!16人名单公布,李盈莹无缘,金佳宝被赵勇放弃

中国排协官宣!16人名单公布,李盈莹无缘,金佳宝被赵勇放弃

跑者排球视角
2026-07-05 08:40:15
飞机发动机每天连飞十几个小时,凭什么不用休息?

飞机发动机每天连飞十几个小时,凭什么不用休息?

平流层散步者
2026-07-04 14:06:44
穆里尼奥血赚!7000 万天才世界杯彻底露馅,皇马放弃真的太神了

穆里尼奥血赚!7000 万天才世界杯彻底露馅,皇马放弃真的太神了

奶盖熊本熊
2026-07-05 05:00:16
2026-07-05 11:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12893文章数 176510关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

姆巴佩回应巴拉圭队球风:他们想用粗野风格压制我们

头条要闻

姆巴佩回应巴拉圭队球风:他们想用粗野风格压制我们

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
教育
游戏
公开课
军事航空

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

教育要闻

一道五年级期末考试题,做对的竟然寥寥无几

热度碾压GTA6封面首曝!PS停盘公告成顶流动态

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版