网易首页 > 网易号 > 正文 申请入驻

金鱼损失随机剔除token,让AI不再死记硬背

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

训练大模型时,有时让它“记性差一点”,反而更聪明!

大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(Goldfish Loss)



顾名思义,金鱼损失就是让模型像金鱼一样,不去死记每一个细节,而是在损失函数计算时随机剔除一小部分token。

由此,模型不再逐字记住训练集内容,但仍能学会语言规律。

实验显示,LLaMA-2在使用金鱼损失后:

  • 记忆化内容显著减少:模型不再复现训练数据
  • 下游任务性能几乎不受影响:仍然能流畅生成文本

用网友的精辟评论概括就是:dropout,但损失函数!



在梯度计算中随机屏蔽部分token

金鱼损失的核心理念非常简单,就是在模型训练过程中随机剔除一部分训练文本中的tokens,使其不参与损失计算。

这样一来,当模型在推理阶段遇到这些位置时,就只能“猜测”,而不是逐字逐句复现训练数据的完整序列。

此外,为了保证被剔除token的一致性,研究人员设计了一种基于哈希(hashing)的掩码策略。



那么,这和同样是防止模型背会的正则化方法有什么不同呢?

Dropout这样的正则化方法为例,它通过在训练时“加噪声”来防止模型过度依赖某些参数,从而提高模型举一反三的能力。

但这样做的问题在于:如果只是随机丢token,那么,每次看到同一段落时,丢掉的地方不一样,模型累计几次就能拼凑出完整段落。

所以,说到底,模型还是靠死记硬背,记住了答案。

相比之下,金鱼损失则用哈希掩码确保每次遇到同一段落,掩盖位置都一样,这就从根本上阻止了模型复现完整训练文本。

接下来,我们来看金鱼损失具体是怎么做的。

在传统的next-token prediction中,模型以序列中的下一个真实token作为目标,输出预测分布,并基于该分布计算交叉熵损失。



在金鱼损失下,模型虽然也在前向传播中预测序列里下一个 token。但在计算损失时,会以一定的概率将某些位置的token从损失计算里“抹掉”。

也就是说,有些真实的下一个token不会作为目标来训练。



在这里,研究人员采用了简单的静态掩码(static mask),剔除每序列中的第4个token。

更进一步,为了确保模型不会从其他地方学到被掩码的数据(例如不同的文档会在不同的网页中反复出现),研究团队还提出了一种局部化哈希掩码(localized hashed mask),使得当相同的前h个token出现时,掩盖模式是相同的(可重复)。

实验测试与结果

为了验证金鱼损失确实能防止记忆化,研究团队设计了两种实验场景:

一种是极端场景,通过对少量样本进行多个训练周期(即重复)来强烈促使记忆化;

另一种是标准场景,模拟现实模型训练中使用的批次处理方式 。

同时,为了评估模型的记忆化程度,研究采用了以下指标:

  • RougeL得分:该指标衡量最长公共(非连续)子序列的长度 。得分为1.0表示完美记忆 。
  • 精确匹配率(Exact Match):该指标衡量正确预测的序列占真实序列的百分比.

实验表明,在极端场景下,标准训练导致模型逐字记忆了100篇文章中的84篇,而金鱼损失没有记忆任何文章



(注:实验让LLaMA-2-7B在《哈利·波特》第一章或100篇维基百科文档上进一步训练了100个epoch)

此外,在标准训练场景下,金鱼损失也明显减少了模型逐字复现训练语料库中目标序列的情况。



但这里可能有个直觉式的反应——如果让模型“随机漏学”一些token,它的能力会不会也随之降低呢?

对此,研究人员进行了测试:研究表明,金鱼损失模型、标准损失模型和对照模型之间的总体性能没有系统性差异。



需要注意的是,金鱼损失的核心在于忽略部分token的梯度计算。因此,为了学到足够的语言模式,模型必须通过更多数据来补偿这些空缺,这可能导致计算效率的下降。

[1]https://arxiv.org/pdf/2406.10209

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-3爆大冷!国乒3人出局,周启豪遭17岁大黑马逆转,王皓脸色铁青

1-3爆大冷!国乒3人出局,周启豪遭17岁大黑马逆转,王皓脸色铁青

体育就你秀
2026-02-24 15:15:50
利物浦消息:名宿直言萨拉赫该离队,阿诺德承认转会皇马心存遗憾

利物浦消息:名宿直言萨拉赫该离队,阿诺德承认转会皇马心存遗憾

夜白侃球
2026-02-24 15:09:54
1968年黄克诚被轮番审讯,偷偷给林彪写了一封信:请你考虑一下

1968年黄克诚被轮番审讯,偷偷给林彪写了一封信:请你考虑一下

雍亲王府
2026-02-24 12:25:05
世界第一女巨人来自中国安徽,穿78码的鞋子,一顿饭吃六碗炒面

世界第一女巨人来自中国安徽,穿78码的鞋子,一顿饭吃六碗炒面

今墨缘
2026-02-24 11:25:00
下一届冬奥会开幕时间确定!中日韩争亚洲第一,传来谷爱凌新消息

下一届冬奥会开幕时间确定!中日韩争亚洲第一,传来谷爱凌新消息

侃球熊弟
2026-02-24 00:53:52
火箭大胜爵士后!1喜讯3不足,小贾31分阿杜12助,却难掩3大问题

火箭大胜爵士后!1喜讯3不足,小贾31分阿杜12助,却难掩3大问题

篮球看比赛
2026-02-24 15:34:23
库拉岗日一女生徒步失联1日在牛棚被找到,当地:她用牛粪保温,基本承担了村民救援费

库拉岗日一女生徒步失联1日在牛棚被找到,当地:她用牛粪保温,基本承担了村民救援费

潇湘晨报
2026-02-24 11:26:32
佛山里水一企业仓库起火,涉事员工被刑拘

佛山里水一企业仓库起火,涉事员工被刑拘

南方都市报
2026-02-23 22:22:14
贾家被抄家的根本原因,就是贾元春省亲,可惜贾家没懂皇帝的用意

贾家被抄家的根本原因,就是贾元春省亲,可惜贾家没懂皇帝的用意

千秋文化
2026-02-20 20:23:09
昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

上游新闻
2026-02-21 13:43:15
震惊!你绝对想不到艾滋病高发地是这里!

震惊!你绝对想不到艾滋病高发地是这里!

特约前排观众
2026-01-15 00:10:08
平顶山事件最新进展,受害者态度强硬,多少钱都不谅解

平顶山事件最新进展,受害者态度强硬,多少钱都不谅解

吃货的分享
2026-02-24 09:54:04
诺奖得主惊人预测:4年推出广义相对论,就是AGI!做完人类580亿年任务

诺奖得主惊人预测:4年推出广义相对论,就是AGI!做完人类580亿年任务

新智元
2026-02-23 16:05:32
初八票房早报!《飞驰》29.7亿,《镖人》8.2亿,单日票房下滑!

初八票房早报!《飞驰》29.7亿,《镖人》8.2亿,单日票房下滑!

小娱乐悠悠
2026-02-24 12:59:38
多条新规严禁变相降低汽车价格

多条新规严禁变相降低汽车价格

大象新闻
2026-02-24 09:40:02
美伊26日谈判在即 是否对伊朗动武:白宫先内讧了

美伊26日谈判在即 是否对伊朗动武:白宫先内讧了

环球网资讯
2026-02-24 07:25:18
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
越来越多的客厅放“大长桌”?过来人:美翻了,也后悔了

越来越多的客厅放“大长桌”?过来人:美翻了,也后悔了

阿离家居
2026-02-23 23:43:40
于和伟:我虽有绯闻,但余生都不会辜负18岁就跟了我的宋林静!

于和伟:我虽有绯闻,但余生都不会辜负18岁就跟了我的宋林静!

往史过眼云烟
2026-02-22 09:23:47
韩国政坛,真是杀疯了。

韩国政坛,真是杀疯了。

百态人间
2026-02-24 15:39:54
2026-02-24 16:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12196文章数 176391关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

教育
数码
旅游
手机
公开课

教育要闻

如何评价高二英语难度?中考英语130,高二文章完全看不懂

数码要闻

库克豪掷6000亿美元!Mac mini开启美国制造模式:苹果供应链要变天

旅游要闻

“家门口旅游”火爆,假期扩容要沿着一个方向继续努力下去|封面评论

手机要闻

OPPO陈希吐槽苹果最新旗舰iPhone 17 Pro,称完全开始不讲究了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版