网易首页 > 网易号 > 正文 申请入驻

一个快速 WordPiece 标记化系统

0
分享至

标记化是大多数自然语言处理(NLP) 应用程序的基本预处理步骤。它涉及将文本拆分为称为标记的较小单元(例如,单词或词段),以便将非结构化输入字符串转换为适用于机器学习(ML) 模型的离散元素序列。在基于深度学习的模型(例如,BERT)中,每个标记都映射到一个嵌入向量以输入模型。

典型深度学习模型中的标记化,如BERT

一种基本的标记化方法是将文本分解为单词。但是,使用这种方法,未包含在词汇表中的单词将被视为“未知”。现代 NLP 模型通过将文本标记为子词单元来解决这个问题,这些子词单元通常保留语言含义(例如,词素)。因此,即使模型可能不知道某个词,单个子词标记可能会保留足够的信息,让模型在一定程度上推断其含义。一种常用且可应用于其他 NLP 模型的子词标记化技术称为WordPiece。给定文本,WordPiece 首先将文本预先标记为单词(通过拆分标点符号和空格),然后将每个单词标记为子词单元,称为 wordpieces。

带有例句的 WordPiece 标记化过程

在EMNLP 2021 上展示的“ Fast WordPiece Tokenization ”中,Google开发了一种改进的端到端 WordPiece 标记化系统,可以加快标记化过程,减少整体模型延迟并节省计算资源。与已经使用了几十年的传统算法相比,这种方法将计算的复杂性降低了一个数量级,从而显着提高了性能,比标准方法快 8 倍。该系统已在谷歌的多个系统中成功应用,并已在TensorFlow Text公开发布。

单字 WordPiece 标记化

WordPiece 使用贪婪的最长匹配优先策略来标记单个单词——即,它迭代地选择与模型词汇表中的单词匹配的剩余文本的最长前缀。这种方法被称为最大匹配或 MaxMatch,自 1980 年代以来也被用于中文分词。然而,尽管它在 NLP 中被广泛使用了几十年,但它仍然是相对计算密集型的,通常采用的 MaxMatch 方法的计算是关于输入字长 ( n ) 的二次方。这是因为需要两个指针来扫描输入:一个用于标记开始位置,另一个用于在该位置搜索与词汇标记匹配的最长子串。

Google为 WordPiece 分词提出了 MaxMatch 算法的替代方案,称为 LinMaxMatch,其分词时间相对于n严格线性。首先,Google将词汇标记组织在一个特里(也称为前缀树)中,其中每个特里边由一个字符标记,从根到某个节点的树路径代表词汇表中某个标记的前缀。在下图中,节点用圆圈表示,树边用黑色实心箭头表示。给定一个 trie,可以通过从根遍历并沿着 trie 边缘逐个字符地匹配输入文本来定位词汇标记以匹配输入文本;这个过程被称为特里匹配。

下图显示了由“a”、“abcd”、“##b”、“##bc”和“##z”组成的词汇表创建的特里树。输入文本“abcd”可以通过从根(左上角)开始并跟随带有标签“a”、“b”、“c”、“d”的特里边缘来匹配词汇标记。(前导“##”符号是 WordPiece 标记中使用的特殊字符,下面将进行更详细的描述。)

词汇表 [“a”、“abcd”、“##b”、“##bc”、“##z”]。圆圈和箭头分别代表沿着树的节点和边。

其次,受1975 年发明的经典字符串搜索算法Aho-Corasick 算法的启发,Google引入了一种方法,它跳出无法匹配给定输入的特里树分支并直接跳到替代分支继续匹配。与标准的特里匹配一样,在标记化过程中,Google沿着特里边缘一一匹配输入字符。当 trie 匹配无法匹配给定节点的输入字符时,标准算法会回溯到匹配令牌的最后一个字符,然后从那里重新启动 trie 匹配过程,这会导致重复和浪费的迭代。Google的方法不是回溯,而是触发失败转换,这分两步完成:(1)它收集存储在该节点上的预先计算的令牌,Google称之为failure pops;(2) 然后它遵循预先计算的故障链接到一个新节点,从该节点继续进行特里匹配过程。

例如,给定具有上述词汇表(“a”、“abcd”、“##b”、“##bc”和“##z”)的模型,WordPiece 标记化区分在开头匹配的子词标记从中间开始的子词标记中的输入词(后者用两个前导哈希“##”标记)。因此,对于输入文本“abcz”,预期的标记化输出是 [“a”, “##bc”, “##z”],其中“a”匹配输入地开头,而“##bc”和“##z”在中间匹配。对于这个例子,下图显示,在成功匹配三个字符'a'、'b'、'c'后,trie匹配无法匹配下一个字符'z',因为“abcz”不在词汇表中。在这种情况下

与上例所示相同词汇的 Trie 结构,现在说明Google新的 Fast WordPiece Tokenizer 算法采用的方法。失败的流行音乐用括号括起来并以紫色显示。节点之间的故障链接用红色虚线箭头表示。

由于读取整个输入至少需要n 个操作,因此 LinMaxMatch 算法对于 MaxMatch 问题是最优的。

端到端 WordPiece 标记化

鉴于现有系统预先标记输入文本(通过标点符号和空白字符将其拆分为单词),然后对每个结果单词调用 WordPiece 标记化,Google提出了一种端到端 WordPiece 标记器,它结合了pre-tokenization 和 WordPiece 到一个单一的,线性时间传递。它尽可能多地使用 LinMaxMatch 树匹配和失败转换,并且只在循环未处理得相对较少的输入字符中检查标点符号和空白字符。它更高效,因为它只遍历输入一次,执行更少的标点符号/空格检查,并跳过中间词的创建。

端到端 WordPiece 标记化

基准测试结果

Google针对两个广泛采用的 WordPiece 标记化实现对Google的方法进行了基准测试,HuggingFace Tokenizers来自 HuggingFace Transformer 库,是最流行的开源 NLP 工具之一,TensorFlow Text是TensorFlow的官方文本实用程序库。Google使用与BERT-Base, Multilingual Cased model一起发布的 WordPiece 词汇表。

Google在大型语料库(数百万个单词)上将Google的算法与 HuggingFace 和 TensorFlow Text 进行了比较,发现将字符串拆分为标记的方式与单个单词和端到端标记化的其他实现方式相同。

为了生成测试数据,Google从多语言维基百科数据集中抽取了 1,000 个句子,涵盖 82 种语言。平均每个单词有四个字符,每个句子有 82 个字符或 17 个单词。Google发现这个数据集足够大,因为一个更大的数据集(由数十万个句子组成)产生了类似的结果。

Google比较了为每个系统标记单个单词或一般文本(端到端)时的平均运行时间。Fast WordPiece 分词器比 HuggingFace 快 8.2 倍,比 TensorFlow Text 快 5.1 倍,平均而言,对于一般文本端到端分词。

每个系统的平均运行时间。请注意,为了更好地可视化,单个词标记化和端到端标记化以不同的比例显示。

Google还研究了运行时如何相对于单个词标记化的输入长度增长。由于其线性时间复杂度,LinMaxMatch 的运行时间最多随输入长度线性增加,这比其他二次时间方法慢得多。

每个系统相对于单个词标记化的输入长度的平均运行时间。

Google提出了用于单字 WordPiece 标记化的 LinMaxMatch,它在输入长度的渐近最优时间内解决了几十年前的 MaxMatch 问题。LinMaxMatch 扩展了 Aho-Corasick 算法,这个想法可以应用于更多的字符串搜索和换能器挑战。Google还提出了一种端到端的 WordPiece 算法,该算法将预标记化和 WordPiece 标记化结合到单个线性时间传递中,以提高效率

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美共谋避战,朱立伦终于改口,完成祖国统一,还有7颗钉子要拔

中美共谋避战,朱立伦终于改口,完成祖国统一,还有7颗钉子要拔

朝晖前哨
2024-05-11 13:48:13
哈里凯恩被曝离队,拜仁高层表态,蓝月亮正式行动,下站英超

哈里凯恩被曝离队,拜仁高层表态,蓝月亮正式行动,下站英超

球坛殿堂
2024-05-11 17:34:14
徐梓钧发文回应高亚麟,称二人并无不正当关系,要求对方公开道歉

徐梓钧发文回应高亚麟,称二人并无不正当关系,要求对方公开道歉

前创工作室
2024-05-10 17:36:50
到底谁泄露了?福建舰刚顺利返航靠港,造船厂的两艘巨舰就被发现

到底谁泄露了?福建舰刚顺利返航靠港,造船厂的两艘巨舰就被发现

青年的背包
2024-05-11 23:24:03
母亲拾荒培养出985儿子,婚礼仪式岳父听到母亲名字,竟当场下跪

母亲拾荒培养出985儿子,婚礼仪式岳父听到母亲名字,竟当场下跪

纸鸢奇谭
2024-05-08 08:51:32
踢假球?31岁名将犯蠢染红助国安连扳3球!名记:该查他银行流水

踢假球?31岁名将犯蠢染红助国安连扳3球!名记:该查他银行流水

我爱英超
2024-05-11 23:06:24
网传油车将被全面禁售,现有油车3年内强制报废?纯属瞎编

网传油车将被全面禁售,现有油车3年内强制报废?纯属瞎编

网易号社区管理员
2024-05-11 17:58:38
金佑景:与李雪主竞争嫁金家失败,后奉命成张成泽情妇,卧底监视

金佑景:与李雪主竞争嫁金家失败,后奉命成张成泽情妇,卧底监视

阿胡
2024-05-09 11:27:39
雷蒙多:将全面禁止中国电动汽车进入美国?马斯克:那特斯拉咋办

雷蒙多:将全面禁止中国电动汽车进入美国?马斯克:那特斯拉咋办

户外小阿隋
2024-05-10 14:25:55
全国人口减少原因:计划生育是真罚你呀,鼓励生育是真不给你呀!

全国人口减少原因:计划生育是真罚你呀,鼓励生育是真不给你呀!

芯怡飞
2024-05-11 08:24:48
我和男友同居后,他的死党却提出过分要求,最后我差点被洗劫

我和男友同居后,他的死党却提出过分要求,最后我差点被洗劫

想养大熊猫
2024-05-08 09:48:38
华尔街“最准预言家”建议:在下周CPI报告发布前买入股票!

华尔街“最准预言家”建议:在下周CPI报告发布前买入股票!

财联社
2024-05-11 15:18:09
沙特不再称以色列为犹太复国主义政权?给全球传递一个强烈信号

沙特不再称以色列为犹太复国主义政权?给全球传递一个强烈信号

议纪史
2024-05-10 19:25:03
赖清德换下蔡英文前,大陆用大手笔提醒岛内,金门的事还没完

赖清德换下蔡英文前,大陆用大手笔提醒岛内,金门的事还没完

千秋秋娱乐
2024-05-11 11:14:17
蹊跷!璩静公关能力如此差劲,她是如何从小记者跃升500强副总?

蹊跷!璩静公关能力如此差劲,她是如何从小记者跃升500强副总?

麦大人
2024-05-10 13:51:11
闷声发财瓜帅上周说不可能追上阿森纳净胜球,现在仅落后2个

闷声发财瓜帅上周说不可能追上阿森纳净胜球,现在仅落后2个

直播吧
2024-05-11 22:43:22
网红徐奶奶又出来了,开车养蜂种花,评论区十分热闹

网红徐奶奶又出来了,开车养蜂种花,评论区十分热闹

九方鱼论
2024-05-10 23:06:34
笑不活了,张若昀说五年里尽力在保养了,我却笑死在网友评论区里

笑不活了,张若昀说五年里尽力在保养了,我却笑死在网友评论区里

娱乐八卦木木子
2024-05-11 12:32:39
高盛说了中国的房地产要跌到 2027 年,而且还要跌 40%。

高盛说了中国的房地产要跌到 2027 年,而且还要跌 40%。

维纳斯的眼泪
2024-04-24 19:04:01
观音桥知名商场即将停业,6月底正式终止经营

观音桥知名商场即将停业,6月底正式终止经营

侃故事的阿蚌
2024-05-11 18:38:55
2024-05-12 02:58:44
北河科技
北河科技
阅读,思考,解读科技圈大小事
156文章数 109547关注度
往期回顾 全部

科技要闻

苹果高管体验ChatGPT后恐惧,砍掉汽车项目

头条要闻

渣土车碰撞学生大巴致1死:直行信号灯故障 渣土车违规

头条要闻

渣土车碰撞学生大巴致1死:直行信号灯故障 渣土车违规

体育要闻

你可曾听过,40岁“亚洲一叔”的传说

娱乐要闻

《歌手2024》首播排名出了,那英第三

财经要闻

周鸿祎的放贷生意:为金融机构兜底催债

汽车要闻

e平台3.0 Evo首款车型 海狮07EV有啥不同

态度原创

亲子
家居
健康
数码
公开课

亲子要闻

儿媳妇即将临产宫缩疼痛难忍,婆婆在一旁一脸不屑

家居要闻

极致肌理 线条质感打造轻奢空间

春天野菜不知不识莫乱吃

数码要闻

尽管在设计方面有重大改进 但新一代iPad Pro的需求量可能低于去年

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版