网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Meta发布首个「非参数化」掩码语言模型NPM：吊打500倍参数量的GPT-3

2022-12-27 13:36:36　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：LRS

【新智元导读】Meta发布首个非参数化掩码语言模型NPM：那年双手插兜，不知道什么叫做out of vocabulary

虽然大型语言模型在NLP领域展现出的强大性能十分惊人，但其带来的负面代价也很严重，比如训练过于昂贵，难以更新等。，而且很难处理长尾知识。

并且语言模型通常采用在预测层采用一个包含有限词汇量的softmax层，基本上不会输出少见的单词或短语，极大限制了模型的表达能力。

为了解决模型的长尾问题，最近来自华盛顿大学、Meta AI和艾伦人工智能研究所的学者联合提出了首个「非参数化掩码语言模型」（NonParametric Masked language model, NPM），通过参考语料库中每个短语的非参数化分布来代替softmax输出。

论文链接：https://arxiv.org/abs/2212.01349

代码链接：https://github.com/facebookresearch/NPM

NPM可以通过对比目标（contrastive objective）和批内近似于检索完整语料库的方式进行有效训练。

研究人员对9个封闭式任务和7个开放式任务进行了zero-shot评估，包括强调需要预测新事实或罕见短语的时空转换和词级翻译任务。

结果发现，无论是否采用检索和生成的方法，NPM都明显优于较大的参数模型，比如参数量高500倍的GPT-3和37倍的OPT 13B性能还强不少，并且NPM在处理罕见模式（词义或事实）和预测罕见或几乎未见过的词（如非拉丁文字）方面尤其出色。

首个非参数化语言模型

虽然结合现有的一些检索和生成（retrieve-and-generate）的相关工作可以缓解该问题，但这些模型的最终预测部分仍然需要一个softmax层来预测token，没有从根本上解决长尾问题。

NPM由一个编码器和一个参考语料库组成，编码器将文本映射成一个固定大小的向量，然后NPM从中检索出一个短语并填入[MASK]。

可以看到，NPM选择在短语上得到的非参数化分布，而没有使用一个固定的输出词汇softmax作为输出。

但训练非参数化模型也带来了两个关键的问题：

1. 在训练过程中检索完整的语料库是非常耗时耗力的，研究人员通过使用完整语料库检索的批内近似值来解决；

2. 在没有解码器的情况下学习预测任意长度的短语是很困难的，研究人员通过扩展span masking和短语级别的对比目标来解决。

总之，NPM完全删除了输出词汇的softmax，通过预测任意数量的n-gram，实现了有效的无界输出空间。

由此产生的模型可以预测「极其罕见」甚至是「完全未见过」的单词（如韩语单词），并可以有效地支撑无限的词汇量，而现有的模型都无法做到这一点。

NPM方法

NPM的关键思想是使用编码器将语料库中的所有短语映射到一个密集的向量空间中。在推理时，当给定一个带有[MASK]的查询后，使用编码器从语料库中找到最近的短语并填入[MASK]。

纯编码器（Encoder-only）模型是一个很有竞争力的表示模型，但现有的纯编码模型无法进行token数量未知的预测，使得它们的使用情况在没有微调的情况下受到限制。

NPM通过检索一个短语来填补[MASK]中的任意数量的token，从而解决了这个问题。

推理

编码器将参考语料库C中的每个不同的短语都映射到一个密集的向量空间中。

在测试时，编码器将被masked的查询映射到相同的向量空间中，并从C中检索出短语来填充[MASK]。

在这里，C不一定要和训练语料库一样，在测试时可以被替换或扩展，而不需要重新训练编码器。

在实践中，语料库中存在大量的短语，对所有的短语进行索引是很昂贵的。

比如我们考虑最多有 l 个token的短语（l≈20），就需要索引 l×|C| 数量的向量，这可能会很耗时。

研究人员对C中每个不同的token进行索引，从而将索引的大小从l×|C|减少到 |C|，然后在测试时，通过对开头和结尾分别进行k近邻搜索，对所有短语的非参数分布进行近似。

比如由4个BPE token组成的短语Thessaloniki用c1和c4的连接来表示，分别对应于该短语的开始（The）和结束（iki）。

然后用同一向量空间中的两个向量q_start和q_end来表示一个查询，然后用每个向量来检索似是而非的短语的开始和结束，然后再进行聚合。

这样做的前提是开始和结尾的表示足够好，即q起点足够接近c1，q终点足够接近c4，而这一点在训练过程中已经得到确保了。

训练

NPM是在无标签的文本数据上训练的，以确保编码器将文本映射到一个良好的密集向量空间。

训练NPM主要有两个难题：1）完整的语料库检索会使训练非常耗时；2）用任意长度的短语而不非token来填充[MASK]。

1. 掩码Masking

片段掩码（span masking）就是对长度从几何分布中取样的连续token进行mask。

研究人员对此进行扩展：

1）如果某些片段在batch中的其他序列中共同出现，再对其进行屏蔽，以保证在训练期间该批次内的正例（in-batch positives）。

比如，屏蔽的片段2010、the Seattle Seahawks和to the都在另一个序列中共同出现。

但对于「game ,」这个bigram来说就无法一起被mask，虽然它们也都出现在两个序列中，但它们并没有在一起共现。

2）不是用[MASK]来替换片段中的每个token，而是用两个特殊的token [MASKs][MASKe]来替换整个片段。

比如上面的例子中，不论被mask的片段长度如何，都被替换成[MASKs][MASKe]，从而可以获得每个片段的起点和终点向量，更方便推理。

2. 训练目标

假设被mask的片段是the Seattle Seahawks，在测试时，模型应该从参考语料库的其他序列中检索出the Seattle Seahawks这一短语。

而在推理阶段，模型从[MASKs]和[MASKe]中获得向量，并利用它们分别从语料库中检索出短语的开始和结束。

因此，训练的目标应该鼓励[MASKs]的向量更接近于the Seattle Seahawks中的the，而与其他token相距较远，并且不应该是任意一个短语中的the，比如become the first中。

通过将完整的语料库近似为batch中的其他序列来训练模型来做到这一点，具体来说，训练模型从同一batch的其他序列中检索出the Seattle Seahawks这一片段的起点和终点。

需要注意的是，该mask策略确保每个被遮蔽的跨度在一个batch中都有一个共同出现的片段。

实验部分

从结果上看，NPM在zero-shot设置下比其他基线模型的性能都要强。

在参数化模型中，RoBERTa取得了最好的性能，出人意料地超过了包括GPT-3等在内的模型，可能是因为纯编码器模型的双向性起到了至关重要的作用，这也表明，因果语言模型可能不是一个合适的分类选择。

kNN-LM方法在参数模型中加入了非参数成分，其性能优于其他所有基线。尽管如此，仅仅依靠检索（kNN）在GPT-2中的表现很差，这表明仅在推理时使用kNN是有限的。

NPM SINGLE和NPM的表现都明显优于所有基线，在所有数据集上都取得了一致的优越性能。这表明，即使对于不明确需要外部知识的任务，非参数模型也非常有竞争力。

定性分析时采用RoBERTa和NPM在情感分析任务时的预测结果。第一个例子用便宜表示不贵，第二个例子用便宜表示质量很差。

RoBERTa对这两个例子的预测都是正向的，而NPM通过检索在与输入相同的语境中使用cheap的语境，做出了正确的预测。

还可以发现，NPM输出的表征能带来更好的词义消歧。例如，RoBERTa在cheap（廉价）和cheap（质量很差）之间分配了一个很高的相似性分数。

另一方面，NPM成功地在cheap和cheap之间分配了一个低的相似性分数，也表明该非参数训练与对比性目标是有效的，可以更好地提高表征学习，而kNN推理这类没有训练的算法是完全做不到的。

参考资料：

https://arxiv.org/abs/2212.01349

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

晋江鞋厂负责人已被控制

央视新闻客户端 2026-07-09 22:29:24
8043 跟贴 8043
FIFA认定埃及进球被取消判罚正确：犯规就是犯规

大风新闻 2026-07-09 17:02:04
11230 跟贴 11230

哈兰德让鲁尼兑现承诺:你说挪威进八强就跳默西河漂流

极目新闻 2026-07-09 15:19:13
1715 跟贴 1715

历史罕见，兰州地表温度高达71℃，避暑之城深陷炙烤模式？

大象新闻 2026-07-09 16:46:11
10 跟贴 10
河南老君山月薪6万招人每天看云海，需在山顶住30天，每天至少发一条短视频，景区：咨询报名者众多，全国仅选一人

极目新闻 2026-07-08 14:01:25
7507 跟贴 7507

太聪明了！主人外出干活，暴风雨来临前，小狗主动把玉米盖了起来

环球网资讯 2026-07-09 10:06:35
79 跟贴 79

搭载“李要得”进藏的“黄色法拉利”运抵重庆，两位的哥感慨“这趟能吹一辈子”

上游新闻 2026-07-09 09:13:12
199 跟贴 199
关于中国试射战略导弹美官员抱怨：提前数小时才通知

澎湃新闻 2026-07-09 14:15:06
143 跟贴 143

小店老板守着冰柜叹气：今年雪糕棒冰怎么没人吃了？

大象新闻 2026-07-05 21:58:07
2483 跟贴 2483
788亿龙头，封死涨停！超53亿元抢筹！四大利好突然来袭

证券时报 2026-07-09 13:01:14
35 跟贴 35
中签率有望高出10倍！长鑫科技申购时间敲定

第一财经资讯 2026-07-09 19:29:13
15 跟贴 15
蔚来ES8大五座版上市整车购买38.28万元起

红星新闻 2026-07-09 22:16:22
6 跟贴 6
“野路子”，不允许了

中国新闻周刊 2026-07-09 08:11:21
48 跟贴 48
国安部：个别培训机构或个人谎称掌握国家安全机关内部名额、关系渠道，开办所谓“内部培训班”“定向辅导班”“考前特训班”

政知新媒体 2026-07-09 08:02:41
43 跟贴 43
龙卷风过后猫咪躲衣柜里幸免于难

潇湘晨报 2026-07-09 09:10:21
211 跟贴 211
千只小猫突发瘫痪伯纳天纯发布声明回应猫粮争议

界面新闻 2026-07-09 20:09:49
234 跟贴 234
俄罗斯宣布实施柴油出口禁令

新京报 2026-07-09 08:45:14
1171 跟贴 1171
2026年上半年追回医保基金163.5亿元

界面新闻 2026-07-09 10:46:19
1055 跟贴 1055
6月CPI同比上涨1.0% PPI同比上涨4.1%

国家统计局 2026-07-09 09:36:14
11 跟贴 11
广州举行云溪植物园、云萝植物园门票收费标准方案听证会

南方都市报 2026-07-07 13:48:11
329 跟贴 329
活力中国调研行｜支撑完成3万个实验课题，上海光源如何“照亮”未来？

澎湃新闻 2026-07-09 11:06:28
46 跟贴 46
锚定50万级旗舰MPV市场岚图梦想家9新车将于下半年上市

中国经营报 2026-07-09 09:45:31
79 跟贴 79
网传“广西横州抗蛇毒血清告急”不实（2026·07·09）

今日辟谣 2026-07-09 17:41:32
100 跟贴 100
从“路易号”到“艺术苏河”，上海静安正重塑全球时尚新坐标

澎湃新闻 2026-07-09 22:18:28
8 跟贴 8
贵港8000余名学生被洪水围困数日，当“救援航母”出现那一刻，全校沸腾了！

乡村刷刷 2026-07-10 00:57:43
0 跟贴 0
逾期不改，全部强拆！黄埔对违规“封窗”下死令！

广州楼市发布 2026-07-10 01:01:43
0 跟贴 0
湖南一女子驾驶三轮车因暴雨路滑坠入深渠，4名社区居民合力将人从激流中救起；落水者：要不是他们及时出手，我人可能都没了

三湘都市报 2026-07-10 01:15:34
0 跟贴 0

中国性需求报告显示：性欲高的男女占比分别为35%和30%！

中国性需求报告显示：性欲高的男女占比分别为35%和30%！

黯泉

2026-07-09 12:23:09

司晓迪对男星大点兵不到3天，范丞丞用一个举动，给鹿晗上了一课

司晓迪对男星大点兵不到3天，范丞丞用一个举动，给鹿晗上了一课

叨唠

2026-07-08 21:50:23

中国走则万物落！面对印尼的镍矿收割，中企用21天拆除生产线回国

中国走则万物落！面对印尼的镍矿收割，中企用21天拆除生产线回国

老谢谈史

2026-07-04 12:49:39

卡西：我打赌阿根廷拿不到世界杯冠军；欧洲足球整体水平更好

卡西：我打赌阿根廷拿不到世界杯冠军；欧洲足球整体水平更好

懂球帝

2026-07-09 11:52:12

把女性尿液注射到青蛙体内，如果它数小时内产出数百枚卵，就说明她怀孕了

把女性尿液注射到青蛙体内，如果它数小时内产出数百枚卵，就说明她怀孕了

果壳

2026-07-09 23:30:27

争议！阿根廷中卫逆转后失态冲萨拉赫3次挥拳挑衅队友将他拖走

争议！阿根廷中卫逆转后失态冲萨拉赫3次挥拳挑衅队友将他拖走

我爱英超

2026-07-09 12:02:15

MLB球星称：若NBA无工资帽，勒布朗·詹姆斯或签下10亿美元合同

MLB球星称：若NBA无工资帽，勒布朗·詹姆斯或签下10亿美元合同

好火子

2026-07-09 01:35:17

出局后首次社媒发声！41岁C罗暗示暂不退出国家队：永远的葡萄牙

出局后首次社媒发声！41岁C罗暗示暂不退出国家队：永远的葡萄牙

风过乡

2026-07-09 05:52:40

大的要来了！穆杰塔巴撸掉伊朗革命卫队总司令，换了个不怕死的

大的要来了！穆杰塔巴撸掉伊朗革命卫队总司令，换了个不怕死的

杰丝聊古今

2026-04-11 19:07:34

台媒曝：小S拒绝担任大S子女共同监护人。S妈悲叹：要露宿街头了。具俊晔放弃继承权，汪小菲接盘房贷。

台媒曝：小S拒绝担任大S子女共同监护人。S妈悲叹：要露宿街头了。具俊晔放弃继承权，汪小菲接盘房贷。

正直小墨

2026-07-09 20:42:26

5场8球！39岁梅西有望拿第9个金球奖骆明：主要看阿根廷能否夺冠

5场8球！39岁梅西有望拿第9个金球奖骆明：主要看阿根廷能否夺冠

风过乡

2026-07-09 10:32:34

愿拿387万底薪！詹姆斯再度降低标准，对哈登和骑士意味着什么？

愿拿387万底薪！詹姆斯再度降低标准，对哈登和骑士意味着什么？

老梁体育漫谈

2026-07-09 23:12:53

芯片巨头，历史新高！600584，涨停！

芯片巨头，历史新高！600584，涨停！

证券时报e公司

2026-07-09 14:44:53

败局已定！弹劾大刀还未落下，菲副总统忙搞救灾，参议院公布铁规

败局已定！弹劾大刀还未落下，菲副总统忙搞救灾，参议院公布铁规

桑启红原

2026-07-09 09:55:46

又被50岁舒淇惊艳到！一袭冰川蓝衬衫裙+猫跟鞋，时髦精致又高级

又被50岁舒淇惊艳到！一袭冰川蓝衬衫裙+猫跟鞋，时髦精致又高级

蓓小西

2026-07-08 10:10:11

突发！压哨裁员！14年NBA生涯彻底结束

突发！压哨裁员！14年NBA生涯彻底结束

左右为篮

2026-07-09 15:23:19

重磅！华人入籍澳洲或拿PR，国内资产可全部合法转移！一生一次, 必须满足这条件

重磅！华人入籍澳洲或拿PR，国内资产可全部合法转移！一生一次, 必须满足这条件

澳洲红领巾

2026-07-09 15:42:27

一档综艺，撕下了马頔的“宠妻”面具，该让他吃点“苦头”了

一档综艺，撕下了马頔的“宠妻”面具，该让他吃点“苦头”了

娱乐圈笔娱君

2026-07-09 15:56:47

同声传译一夜失业！GPT-Live瞬间翻译，老太太现场抬杠AI看傻全网

同声传译一夜失业！GPT-Live瞬间翻译，老太太现场抬杠AI看傻全网

量子位

2026-07-09 09:55:54

法国vs摩洛哥！四大看点拉满，5名阿根廷裁判成最大变数

法国vs摩洛哥！四大看点拉满，5名阿根廷裁判成最大变数

体育吐槽

2026-07-09 19:08:30

AI产业主平台领航智能+时代

15648文章数 66950关注度

往期回顾全部

科技要闻

字节杀回来了！深度实测Seedream 5.0 Pro

头条要闻

洪水卷来眼镜蛇广西60岁老人被咬去世全村仍然在搜蛇

头条要闻

洪水卷来眼镜蛇广西60岁老人被咬去世全村仍然在搜蛇

体育要闻

王楚谈埃及判罚争议：足球没有绝对公平

娱乐要闻

陈翔发文“苍天饶过谁”登热搜，旧事再引关注

财经要闻

中国房地产十年

汽车要闻

悦己更悦人阿维塔07L加长了更加上了豪华

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

旅游

数码

教育

房产

魔兽世界：时光服虚空之花引争议，一键宏还是外挂，玩家意见不一

旅游要闻

深耕文脉创新业态，这场论坛解码运河文旅消费升级“长红密码”

数码要闻

长城商逸R68机箱首发116元：网孔侧板、支持240mm水冷

教育要闻

孩子只够专科线？这组数据看完你可能不慌了

房产要闻

猛踩油门！绿地，又拿下海南一个大城更！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版