网易首页 > 网易号 > 正文 申请入驻

大神Karpathy强推,分词领域必读:自动钓鱼让大模型"发疯"的token

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。

主题是:自动检测大模型中那些会导致“故障”的token。



简单来说,由于大模型tokenizer的创建和模型训练是分开的,可能导致某些token在训练中很少、甚至完全没出现过。这些“训练不足”(under-trained)的token会导致模型产生异常输出。

最经典的例子,就是SolidGoldMagikarp——

这个单词一度让ChatGPT“胡言乱语”。只要prompt里包含这个词,ChatGPT就开始文不对题,生成一些混乱的输出:



现在,来自Cohere的研究人员针对这个问题,提出检测“故障”token的有效方法,他们还发现:在多个主流开源大语言模型上,包括Llama系列、Mistral系列在内,训练不足的token都在不同程度上普遍存在。

p.s. Cohere是Transformer最年轻作者Aidan Gomez创办的公司,此前推出了Command R系列开源大模型。去年6月,该公司估值达到了22亿美元。

自动检测LLM中训练不足的token

研究人员提出的方法主要包括三个步骤。

首先,通过检查tokenizer词汇表并观察其编码/解码行为,来分析tokenizer,找出其中特殊类别的token,比如不完整的UTF-8序列等。

然后,根据模型架构计算识别指标,找出嵌入向量异常的token,列入“训练不足”候选名单。

举个例子,对于tied embedding模型,利用一组已知的未使用的embedding,通过主成分分析去除unembedding矩阵中的常数成分。

接着计算其余token和这些未使用embedding的余弦距离,作为“训练不足”指标。

而对于non-tied embedding的模型,可以直接采用embedding向量的L2范数来检测。



最后,通过特定prompt来进行验证,看看候选token们是否确实超出了训练数据的分布,会引发异常输出。



将该方法应用于多个主流的开源大语言模型后,研究人员发现,训练不足能让大模型“发疯”的token在这些大模型上普遍存在,他们一口气就挖出了数千个。



常见类型包括:

  • 单字节token,尤其是UTF-8标准中未使用的字节,如0xF5-0xFF;
  • 字节对编码(Byte-Pair Encoding,BPE)过程中,出现的一些未充分训练的中间token。
  • 一些特殊字符,如
  • 等。



研究人员还发现,词汇表较大的模型,“训练不足”token的数量也会明显增多。

因为大词汇表意味着更稀疏的token分布和更细粒度的token切分,这必然会导致更多低频token和无意义的token残片,增加“训练不足”token的比例。同时,大词汇表也给模型训练带来了更大的优化难度。

值得注意的是,论文提到,基于相同tokenizer的模型表现相似,而不同的tokenizer实现、配置、训练数据,会导致不同模型间“训练不足”token的明显差异。

论文认为,优化词汇表结构和tokenizer算法,是解决token训练不足问题的关键。

他们也提出了一些建议:

  • 确保tokenizer训练数据、模型训练数据和模型推理中输入数据的预处理完全相同。
  • 确保模型训练数据和tokenizer对齐,尤其是在从头训练新的基础模型时。
  • 对于单字节token,要么词汇表包含所有256个字符且不允许重复,要么排除13个UTF-8中不出现的字符(0xC0/0xC1,0xF5-0xFF)。
  • 训练tokenizer后,通过对词汇表进行编码和解码来检查无法访问的token,以确保正确处理手动添加的token。
  • 在Hugging Face上发表tokenizer的“快速”和“慢速”版本时,确保它们输出相同。
  • 训练基础模型时,在小型测试中检查训练不足的token,重新考虑分词方法和数据。在不同语料库上运行测试,也可以发现导致主训练数据中“故障”输入的预处理错误。

论文地址:
https://arxiv.org/abs/2405.05417

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
打脸了!北大网友怀疑姜萍考试作弊,中科院博士说她写的比我还快

打脸了!北大网友怀疑姜萍考试作弊,中科院博士说她写的比我还快

云舟史策
2024-06-18 18:42:31
美国顶级预言家再出手!直言2024美日中命运!这个岛最先出事!

美国顶级预言家再出手!直言2024美日中命运!这个岛最先出事!

飞云如水
2024-06-09 21:53:34
永远不要为任何人考虑

永远不要为任何人考虑

鹿和犀
2024-06-19 18:59:02
深度调查:张维为,日内瓦学术圈的“三无”人员?

深度调查:张维为,日内瓦学术圈的“三无”人员?

朗威谈星座
2024-06-20 10:07:09
055万吨大驱出现在巴拉巴克海岸,菲律宾表示很担心

055万吨大驱出现在巴拉巴克海岸,菲律宾表示很担心

三叔的装备空间
2024-06-20 18:04:33
科研巨匠余琦:人非圣贤孰能无过,已经“社死”了请大家嘴下留情

科研巨匠余琦:人非圣贤孰能无过,已经“社死”了请大家嘴下留情

嘿哥哥科技
2024-06-20 11:04:59
突然确诊癌症,已多处转移!宁波40岁男子悔不当初:膝盖疼了一个月,怎么也没想到会是癌

突然确诊癌症,已多处转移!宁波40岁男子悔不当初:膝盖疼了一个月,怎么也没想到会是癌

鲁中晨报
2024-06-20 15:07:13
618手机销量榜单,把人看沉默了

618手机销量榜单,把人看沉默了

小慢
2024-06-20 15:19:01
深度好文:台湾为何与我们渐行渐远?

深度好文:台湾为何与我们渐行渐远?

听哲学
2024-06-19 21:43:37
巨献!40集《六姊妹》年代剧,群星闪耀,要火的节奏!

巨献!40集《六姊妹》年代剧,群星闪耀,要火的节奏!

花花聊聊
2024-06-20 12:12:20
太猖狂!云南导游“扎西”火了!称车里藏刀,公开威胁游客买翡翠

太猖狂!云南导游“扎西”火了!称车里藏刀,公开威胁游客买翡翠

开玩笑的水母
2024-06-20 17:38:28
撞船事件后,菲律宾政坛地震,执政联盟掐起来了?

撞船事件后,菲律宾政坛地震,执政联盟掐起来了?

牲产队2024
2024-06-20 20:44:39
晴儿王艳独子被保送北大!长相帅气、篮球特长,早已褪去童年任性

晴儿王艳独子被保送北大!长相帅气、篮球特长,早已褪去童年任性

听栀子说
2024-06-18 20:27:17
再过几个月,很多人的钱可能要被抢走了……

再过几个月,很多人的钱可能要被抢走了……

毯叔盘钱
2024-06-19 18:49:08
埃弗拉吃出“表情包”!球迷会再向浙江队赠送五十余篮新鲜杨梅

埃弗拉吃出“表情包”!球迷会再向浙江队赠送五十余篮新鲜杨梅

直播吧
2024-06-20 17:03:28
“生孩子”别乱演!头发黏腻、青筋暴起,刘亦菲带来教科书式演技

“生孩子”别乱演!头发黏腻、青筋暴起,刘亦菲带来教科书式演技

咖啡店的老板娘
2024-06-19 21:02:24
1.77亿,再见勇士!两核心确定离队,管理层换血早已决定了清算

1.77亿,再见勇士!两核心确定离队,管理层换血早已决定了清算

呆哥聊球
2024-06-19 22:18:50
新型卖淫方式,让人预想不到,但却真实存在!

新型卖淫方式,让人预想不到,但却真实存在!

雪影的情感
2023-11-18 11:51:16
笑不活了,林更新还得赵丽颖来治,当方协文遇到赵姐,评论区笑死

笑不活了,林更新还得赵丽颖来治,当方协文遇到赵姐,评论区笑死

奇特短尾矮袋鼠
2024-06-20 01:32:34
中统特务对上级说自己是地下党,上级听后将其枪毙:我也是地下党

中统特务对上级说自己是地下党,上级听后将其枪毙:我也是地下党

茅舍品史
2024-06-19 19:00:03
2024-06-20 21:30:44
量子位
量子位
追踪人工智能动态
9554文章数 175386关注度
往期回顾 全部

科技要闻

小米SU7流量泼天,富贵却被蔚来接住了

头条要闻

被保险人"呼吸心跳骤停"死亡 保险公司以猝死为由拒赔

头条要闻

被保险人"呼吸心跳骤停"死亡 保险公司以猝死为由拒赔

体育要闻

绿军的真老大,开始备战下赛季了

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

深圳一网红学位房14万/平跌到4万/平

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

本地
时尚
旅游
亲子
公开课

本地新闻

2024·合肥印象|用崭新视角对话城市发展

今日热点:《偶像运动会》重启;于适谈在厕所听到同事说坏话怎么办......

旅游要闻

铁路儿童票新规 已有超4900万小旅客免费出行

亲子要闻

小孩多大才可以掏耳朵?守护宝贝听力,掏耳知识不可少!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版