网易首页 > 网易号 > 正文 申请入驻

咬文嚼字:词元是当今生成式人工智能失败的一个重要原因

0
分享至

生成式人工智能模型处理文本的方式与人类不同。了解它们基于"标记"的内部环境可能有助于解释它们的一些奇怪行为和顽固的局限性。从 Gemma 这样的小型设备上模型到 OpenAI 业界领先的 GPT-4o 模型,大多数模型都建立在一种称为转换器的架构上。由于转换器在文本和其他类型数据之间建立关联的方式,它们无法接收或输出原始文本--至少在没有大量计算的情况下是如此。

因此,出于实用性和技术性的考虑,今天的转换器模型使用的文本已经被分解成更小、更小的片段,这些片段被称为标记--这一过程被称为标记化。

词元可以是单词,如"fantastic"。也可以是音节,如"fan"、"tas"和"tic"。根据标记化器(标记化模型)的不同,它们甚至可以是单词中的单个字符(例如,"f"、"a"、"n"、"t"、"a"、"s"、"t"、"i"、"c")。

使用这种方法,转换器可以在达到称为上下文窗口的上限之前接收更多信息(语义意义上的)。但标记化也会带来偏差。

有些标记符有奇特的间距,这会使转换器出错。例如,词元转换器可能会将"once upon a time"编码为"once"、"on"、"a"、"time",而将"once upon a"(有尾部空白)编码为"once"、"on"、"a"、"."。根据对模型的提示方式--"once upon a"还是"once upon a ,"--结果可能完全不同,因为模型并不能理解(就像人一样)意思是一样的。

标记符号化器处理大小写的方式也不同。对模型来说,"Hello"并不一定等同于"HELLO";"hello"通常是一个标记(取决于标记化器),而"HELLO"可能有三个标记("HE"、"El"和"O")。这就是许多转换器无法通过大写字母测试的原因。

东北大学研究大型语言模型可解释性的博士生 Sheridan Feucht 对此表示:"对于语言模型来说,'词'到底应该是什么,这个问题有点难以解决,即使我们让人类专家就完美的标记词汇达成一致,模型可能仍然会认为进一步'分块'是有用的。"我的猜测是,由于这种模糊性,不存在完美的标记符号生成器。"

这种"模糊性"给英语以外的语言带来了更多问题。许多标记化方法都认为句子中的空格表示一个新词。这是因为它们是针对英语设计的。但并非所有语言都使用空格来分隔单词。汉语和日语不使用空格,韩语、泰语和高棉语也不使用。

2023 年牛津大学的一项研究发现,由于非英语语言的标记化方式不同,转换器完成一项非英语语言任务所需的时间可能是英语任务的两倍。同一项研究和另一项研究发现,"标记效率"较低的语言的用户很可能会看到更差的模型性能,但却要支付更高的使用费用,因为许多人工智能供应商是按标记收费的。

标记化器通常将逻各斯书写系统中的每个字符(在这种系统中,印刷符号代表单词,而与发音无关,如中文)视为一个独立的标记,从而导致标记数较高。同样,标记化器在处理凝集语(单词由称为词素的有意义的小词元组成,如土耳其语)时,往往会将每个词素变成一个标记,从而增加总体标记数。(在泰语中,"hello"的对应词สวัสดี有六个标记)。

2023 年,Google DeepMind 人工智能研究员 Yennie Jun进行了一项分析,比较了不同语言的标记化及其下游效果。通过使用一个翻译成 52 种语言的平行文本数据集,Jun 发现有些语言需要多达 10 倍的标记才能表达英语中的相同含义。

除了语言上的不平等,标记化也可以解释为什么今天的模型数学不好。

数字标记化很少能保持一致。因为它们并不真正了解数字是什么,标记符号化器可能会将"380"视为一个标记符号,而将"381"表示为一对("38"和"1")--这实际上破坏了数字之间的关系以及方程和公式中的结果。结果就是转换器混乱;最近的一篇论文表明,模型很难理解重复的数字模式和上下文,尤其是时间数据。(参见:GPT-4认为7735 大于 7926)。

这也是模型不擅长解决变位问题或颠倒单词的原因。标记化显然给生成式人工智能带来了挑战。它们能被解决吗?也许吧。

Feucht 指出,像MambaByte这样的"字节级"状态空间模型,通过完全取消标记化,可以摄取比转换器多得多的数据,而不会影响性能。MambaByte 可直接处理代表文本和其他数据的原始字节,在语言分析任务方面可与某些转换器模型媲美,同时还能更好地处理"噪音",如带有交换字符、间距和大写字母的单词。

不过,像 MambaByte 这样的模式还处于早期研究阶段。

"最好的办法可能是让模型直接查看字符,而不强加标记化,但现在这对变换器来说在计算上是不可行的,"Feucht 说。"特别是对于变换器模型来说,计算量与序列长度成二次方关系,因此我们真的希望使用简短的文本表示"。

如果不能在词元化方面取得突破,新的模型架构似乎将成为关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
疯狂一夜!上海广厦全被爆冷,徐昕两双广州险胜,CBA冠军19连败

疯狂一夜!上海广厦全被爆冷,徐昕两双广州险胜,CBA冠军19连败

多特体育说
2026-01-25 22:14:34
留学的经验告诉我,还是国内男生香!一留法女生的聊天记录流出…

留学的经验告诉我,还是国内男生香!一留法女生的聊天记录流出…

火山诗话
2026-01-23 16:34:32
中央定调,延迟退休继续实施!公务员和事业单位员工不能向后延?

中央定调,延迟退休继续实施!公务员和事业单位员工不能向后延?

王五说说看
2026-01-18 08:23:52
空气污染严重 伊朗德黑兰省发布应急管控措施

空气污染严重 伊朗德黑兰省发布应急管控措施

财联社
2026-01-26 00:20:05
顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

小陆搞笑日常
2026-01-25 14:35:14
U23亚洲杯中日平均身高对比:国足181.96cm,比对手高1.39cm

U23亚洲杯中日平均身高对比:国足181.96cm,比对手高1.39cm

懂球帝
2026-01-24 11:00:08
坏消息,勇士队斯蒂芬·库里因伤缺席与森林狼队的比赛

坏消息,勇士队斯蒂芬·库里因伤缺席与森林狼队的比赛

好火子
2026-01-26 00:05:36
西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

医学原创故事会
2026-01-21 21:50:30
42岁王冠定居上海,住800平独栋别墅穿188拖鞋,老公手上纹她名字

42岁王冠定居上海,住800平独栋别墅穿188拖鞋,老公手上纹她名字

娱说瑜悦
2026-01-24 13:35:08
太狠了!新股上市6天跌4天,80跌到46元,散户:这是来卖公司的吧

太狠了!新股上市6天跌4天,80跌到46元,散户:这是来卖公司的吧

财经市界
2026-01-25 18:40:43
赵露思不尴尬吗?宝格丽900万珠宝给她戴了,却一身廉价味显难堪

赵露思不尴尬吗?宝格丽900万珠宝给她戴了,却一身廉价味显难堪

嫹笔牂牂
2025-12-23 07:09:08
黄金白银的尽头在哪?下周A股迎来一个涨价题材

黄金白银的尽头在哪?下周A股迎来一个涨价题材

每日经济新闻
2026-01-25 20:16:35
压岁钱发到几岁合适?超过一定年龄就别给了,过了反而不太好

压岁钱发到几岁合适?超过一定年龄就别给了,过了反而不太好

凝妈悟语柠橙妈妈
2026-01-25 10:28:39
男子出轨19岁女孩被抓包,视频曝光,网友:原配这么漂亮为啥还找

男子出轨19岁女孩被抓包,视频曝光,网友:原配这么漂亮为啥还找

农村情感故事
2026-01-25 17:46:18
下岗前我在库房发现4米长的蛇皮,我提醒厂长:蛇蜕皮后凶性最大

下岗前我在库房发现4米长的蛇皮,我提醒厂长:蛇蜕皮后凶性最大

罪案洞察者
2026-01-20 14:06:19
随着广厦+上海遭爆冷,辽宁沦为鱼腩!CBA一夜变天:最新排名乱了

随着广厦+上海遭爆冷,辽宁沦为鱼腩!CBA一夜变天:最新排名乱了

大秦壁虎白话体育
2026-01-26 01:50:02
杀猪宴后呆呆首场直播:辟谣不是23岁而是91年,未婚,并未入编!

杀猪宴后呆呆首场直播:辟谣不是23岁而是91年,未婚,并未入编!

天天热点见闻
2026-01-25 08:46:20
“港独”陈家驹:叫嚣“让香港重归英国”,潜逃英国后沦为乞丐

“港独”陈家驹:叫嚣“让香港重归英国”,潜逃英国后沦为乞丐

谈史论天地
2026-01-23 16:05:03
2026年慢病报销巨变!6种病免办卡直接省一半钱,大多数还不知情

2026年慢病报销巨变!6种病免办卡直接省一半钱,大多数还不知情

复转这些年
2026-01-11 23:32:18
技校到底能有多乱?网友的评论真的震惊到我了

技校到底能有多乱?网友的评论真的震惊到我了

夜深爱杂谈
2026-01-20 18:54:02
2026-01-26 07:03:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
66283文章数 70068关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

本地
数码
时尚
游戏
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

AMD最强APU更新!锐龙AI Max+ 400详细规格曝光:5.2GHz CPU、3.0GHz GPU

看了鲁豫对章小蕙的采访,最大感触是这一点

LCK春季赛:道心没有破碎,KT找回状态,三局战胜BRO

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版