网易首页 > 网易号 > 正文 申请入驻

多伦多大学发现:聊天机器人的"嘴巴"影响它们的智商

0
分享至


当我们与聊天机器人对话时,很少有人会思考一个有趣的问题:这些机器人是如何理解我们的文字的?事实上,在机器人能够理解我们说什么之前,它们需要先把我们的文字"切碎"成小块,就像厨师在烹饪前需要先把食材切成合适的大小一样。这个过程叫做"分词",而负责这项工作的工具叫做"分词器"。

这项由多伦多大学的古尔·塞纳·阿尔廷塔什和马利克·埃格哈吉领导的研究团队发表于2025年12月的最新研究揭示了一个惊人的发现:分词器的选择会像给机器人换了一张嘴一样,直接影响它们的思考能力和表现水平。团队成员还包括来自谷歌DeepMind的布赖恩·莱斯特、麦吉尔大学的冯渊刘、剑桥大学的万如赵等多位研究者。有兴趣深入了解的读者可以通过arXiv编号2512.20757查询完整论文。

为了探究这个问题,研究团队做了一个前所未有的实验:他们创建了14个完全相同的聊天机器人,唯一的区别就是给它们配备了不同的"嘴巴",也就是不同的分词器。这就像是培养了14个基因完全相同的孩子,然后让他们学习不同的语言切分方式,最后观察他们在理解和表达能力上的差异。同时,研究团队还精心设计了一套测试题,专门用来检验这些机器人在面对各种文字"陷阱"时的表现。

一、为什么机器人需要"切词师傅"

在深入探讨研究发现之前,我们需要理解一个基本问题:为什么机器人不能直接理解我们的文字呢?这就像人类婴儿学习语言的过程一样。当你对一个刚学会说话的孩子说"我爱你"时,孩子需要先学会把这句话分解成"我"、"爱"、"你"三个部分,然后理解每个部分的含义,最后把它们组合起来理解整句话的意思。

机器人面临着同样的挑战,但它们的处理方式更加复杂。不同的分词器就像不同的语言老师,有些老师喜欢把词汇切得很细,比如把"大学生"切成"大"、"学"、"生"三个部分;有些老师则倾向于保持完整,把"大学生"作为一个整体来处理。还有一些特殊的分词器甚至会直接处理每一个字母或字符,就像教孩子从最基础的笔画开始学习汉字一样。

研究团队选择了14种不同类型的分词器,它们代表了当前最主流的"切词"方法。这些分词器包括了Google的ByT5(字符级处理)、微软的TokenMonster(特殊算法)、GPT-2(经典方法)、以及各大公司最新开发的分词技术,比如Meta的Llama系列、Google的Gemma系列等。每种分词器都有自己的"个性":有些擅长处理英文,有些对多种语言都很友好,有些词汇量庞大,有些则相对精简。

更有趣的是,研究团队发现这些分词器在处理同样内容时会产生完全不同的结果。比如说"doctor"(医生)这个词,如果遇到拼写错误变成"doctro",不同的分词器会有截然不同的处理方式。有些会把它切成"doc"和"tro",有些会切成"doct"和"ro",而字符级的分词器则会一个字母一个字母地处理。这种差异看似微小,但就像蝴蝶效应一样,会对最终的理解能力产生巨大影响。

二、史无前例的公平比赛

要真正了解分词器对机器人能力的影响,最大的挑战是如何确保比较的公平性。这就像要测试不同品牌的跑鞋对运动员成绩的影响,你需要确保参与测试的运动员在身体素质、训练程度、跑步技巧等方面都完全相同,唯一的变量就是脚上穿的鞋子。

研究团队采用了一个巧妙的方法来解决这个问题。他们首先创建了一个"超级词汇表",这个词汇表包含了所有14种分词器能够识别的所有词汇。然后,他们为每个分词器建立了一个映射关系,确保相同的词汇在所有模型中都对应相同的初始理解。这样做的好处是,所有机器人都从完全相同的起点开始学习,就像14个学生拿到了相同的教材,只是老师教授的方法不同。

训练过程同样严格控制变量。所有14个模型都使用了相同的神经网络架构,都有大约10亿个参数,都接受了相同的训练数据,训练时间也完全一致。训练数据包含了大约1000亿个词汇,其中40%是英文内容,其余60%平均分配给中文、土耳其语、意大利语和波斯语。这种设计确保了任何性能差异都可以直接归因于分词器的影响,而不是其他因素。

然而,这种严格控制也带来了一个有趣的现象。由于不同分词器的压缩效率不同,虽然所有模型都处理了相同数量的词汇单位,但它们实际"阅读"的原始文本量却不相同。就像有些阅读者习惯快速浏览获取要点,有些则喜欢字斟句酌,结果在相同时间内接触到的信息量会有差异。ByT5由于采用字符级处理,实际只处理了大约100GB的原始文本,而其他分词器处理的文本量在215GB到477GB之间。

三、精心设计的"陷阱"测试

为了全面评估不同分词器的影响,研究团队设计了一套包含约5000个问题的测试套件,这些测试题专门用来"为难"机器人的分词能力。这就像一个专门考验厨师刀工的比赛,不仅要看他们能不能切出漂亮的丝,还要测试在各种"恶劣条件"下的表现,比如刀具不锋利时、食材不新鲜时、或者厨房环境嘈杂时。

测试内容覆盖了五种语言:英语、中文、土耳其语、意大利语和波斯语。选择这些语言并非随意,每种语言都代表了不同的文字挑战。英语相对简单,中文是汉字系统,波斯语使用阿拉伯文字且有可选的音标,土耳其语是黏着语(词汇变化复杂),意大利语则代表了拉丁语族的特点。

测试的"陷阱"设计得非常巧妙,模拟了现实世界中可能遇到的各种情况。比如,当用户在土耳其语键盘上打字时,某些特殊字符可能会变成相似但不同的字符。再比如,当波斯语文本中的可选音标被添加或省略时,分词器是否还能正确处理。还有一些测试模拟了OCR识别错误,比如把字母"O"误认为数字"0",或者把"I"误认为"l"。

更有趣的是Unicode格式化测试,研究团队使用了各种特殊的Unicode字符来"装饰"普通文字。比如把普通的"Python"变成花体的"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尴尬 22岁夏思凝社媒晒性感视频 网友留言:吴艳妮我好爱你,真的

尴尬 22岁夏思凝社媒晒性感视频 网友留言:吴艳妮我好爱你,真的

风过乡
2026-03-25 10:56:58
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
“大概有几十万”,重庆一小区有人高空撒钱,物业称捡回几大桶,撒钱者正配合调查

“大概有几十万”,重庆一小区有人高空撒钱,物业称捡回几大桶,撒钱者正配合调查

新京报
2026-03-26 20:41:35
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
“我的部长同学进去了”

“我的部长同学进去了”

霹雳炮
2026-03-21 16:58:17
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

乐悠悠娱乐
2026-03-26 15:02:11
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
马筱梅晒儿子满月宴伴手礼!板栗饼干好简单,没婆婆撑腰不敢高调

马筱梅晒儿子满月宴伴手礼!板栗饼干好简单,没婆婆撑腰不敢高调

东方不败然多多
2026-03-27 00:04:06
路虎“大揽胜亮相 长5.1米,大6座,售30万起?

路虎“大揽胜亮相 长5.1米,大6座,售30万起?

网上车市
2026-03-26 21:41:53
C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

仰卧撑FTUer
2026-03-25 23:05:29
皇马“6300万金童”到底怎么了?全阿根廷都在等他打脸质疑者

皇马“6300万金童”到底怎么了?全阿根廷都在等他打脸质疑者

仰卧撑FTUer
2026-03-26 23:09:03
18岁少女发明净水黑科技:无滤芯循环过滤,微塑料去除率超95%

18岁少女发明净水黑科技:无滤芯循环过滤,微塑料去除率超95%

DeepTech深科技
2026-03-25 13:48:24
张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

揽星河的笔记
2026-03-26 19:04:02
高三男孩喀纳斯湖失踪,母亲守岸7天后直言放弃,意外竟在此时发生

高三男孩喀纳斯湖失踪,母亲守岸7天后直言放弃,意外竟在此时发生

古怪奇谈录
2025-10-16 10:53:42
家里出贵人,必有征兆:孩子有这3点,必定大富大贵

家里出贵人,必有征兆:孩子有这3点,必定大富大贵

金沛的国学笔记
2026-03-23 10:29:42
台积电已经无法向美国交代了!张忠谋没有说谎:台积电也无可奈何

台积电已经无法向美国交代了!张忠谋没有说谎:台积电也无可奈何

顾史
2026-03-20 22:13:27
这几个指标正常,证明你的心脏基本没啥大问题,不要再乱检查了

这几个指标正常,证明你的心脏基本没啥大问题,不要再乱检查了

健康之光
2025-12-17 07:35:04
郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

担扑
2026-03-26 17:02:51
2026-03-27 03:11:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
教育
亲子
本地
数码

400万人爱过的女孩,被黄谣网暴180天后

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

无障碍浏览 进入关怀版