网易首页 > 网易号 > 正文 申请入驻

多伦多大学发现:聊天机器人的"嘴巴"影响它们的智商

0
分享至


当我们与聊天机器人对话时,很少有人会思考一个有趣的问题:这些机器人是如何理解我们的文字的?事实上,在机器人能够理解我们说什么之前,它们需要先把我们的文字"切碎"成小块,就像厨师在烹饪前需要先把食材切成合适的大小一样。这个过程叫做"分词",而负责这项工作的工具叫做"分词器"。

这项由多伦多大学的古尔·塞纳·阿尔廷塔什和马利克·埃格哈吉领导的研究团队发表于2025年12月的最新研究揭示了一个惊人的发现:分词器的选择会像给机器人换了一张嘴一样,直接影响它们的思考能力和表现水平。团队成员还包括来自谷歌DeepMind的布赖恩·莱斯特、麦吉尔大学的冯渊刘、剑桥大学的万如赵等多位研究者。有兴趣深入了解的读者可以通过arXiv编号2512.20757查询完整论文。

为了探究这个问题,研究团队做了一个前所未有的实验:他们创建了14个完全相同的聊天机器人,唯一的区别就是给它们配备了不同的"嘴巴",也就是不同的分词器。这就像是培养了14个基因完全相同的孩子,然后让他们学习不同的语言切分方式,最后观察他们在理解和表达能力上的差异。同时,研究团队还精心设计了一套测试题,专门用来检验这些机器人在面对各种文字"陷阱"时的表现。

一、为什么机器人需要"切词师傅"

在深入探讨研究发现之前,我们需要理解一个基本问题:为什么机器人不能直接理解我们的文字呢?这就像人类婴儿学习语言的过程一样。当你对一个刚学会说话的孩子说"我爱你"时,孩子需要先学会把这句话分解成"我"、"爱"、"你"三个部分,然后理解每个部分的含义,最后把它们组合起来理解整句话的意思。

机器人面临着同样的挑战,但它们的处理方式更加复杂。不同的分词器就像不同的语言老师,有些老师喜欢把词汇切得很细,比如把"大学生"切成"大"、"学"、"生"三个部分;有些老师则倾向于保持完整,把"大学生"作为一个整体来处理。还有一些特殊的分词器甚至会直接处理每一个字母或字符,就像教孩子从最基础的笔画开始学习汉字一样。

研究团队选择了14种不同类型的分词器,它们代表了当前最主流的"切词"方法。这些分词器包括了Google的ByT5(字符级处理)、微软的TokenMonster(特殊算法)、GPT-2(经典方法)、以及各大公司最新开发的分词技术,比如Meta的Llama系列、Google的Gemma系列等。每种分词器都有自己的"个性":有些擅长处理英文,有些对多种语言都很友好,有些词汇量庞大,有些则相对精简。

更有趣的是,研究团队发现这些分词器在处理同样内容时会产生完全不同的结果。比如说"doctor"(医生)这个词,如果遇到拼写错误变成"doctro",不同的分词器会有截然不同的处理方式。有些会把它切成"doc"和"tro",有些会切成"doct"和"ro",而字符级的分词器则会一个字母一个字母地处理。这种差异看似微小,但就像蝴蝶效应一样,会对最终的理解能力产生巨大影响。

二、史无前例的公平比赛

要真正了解分词器对机器人能力的影响,最大的挑战是如何确保比较的公平性。这就像要测试不同品牌的跑鞋对运动员成绩的影响,你需要确保参与测试的运动员在身体素质、训练程度、跑步技巧等方面都完全相同,唯一的变量就是脚上穿的鞋子。

研究团队采用了一个巧妙的方法来解决这个问题。他们首先创建了一个"超级词汇表",这个词汇表包含了所有14种分词器能够识别的所有词汇。然后,他们为每个分词器建立了一个映射关系,确保相同的词汇在所有模型中都对应相同的初始理解。这样做的好处是,所有机器人都从完全相同的起点开始学习,就像14个学生拿到了相同的教材,只是老师教授的方法不同。

训练过程同样严格控制变量。所有14个模型都使用了相同的神经网络架构,都有大约10亿个参数,都接受了相同的训练数据,训练时间也完全一致。训练数据包含了大约1000亿个词汇,其中40%是英文内容,其余60%平均分配给中文、土耳其语、意大利语和波斯语。这种设计确保了任何性能差异都可以直接归因于分词器的影响,而不是其他因素。

然而,这种严格控制也带来了一个有趣的现象。由于不同分词器的压缩效率不同,虽然所有模型都处理了相同数量的词汇单位,但它们实际"阅读"的原始文本量却不相同。就像有些阅读者习惯快速浏览获取要点,有些则喜欢字斟句酌,结果在相同时间内接触到的信息量会有差异。ByT5由于采用字符级处理,实际只处理了大约100GB的原始文本,而其他分词器处理的文本量在215GB到477GB之间。

三、精心设计的"陷阱"测试

为了全面评估不同分词器的影响,研究团队设计了一套包含约5000个问题的测试套件,这些测试题专门用来"为难"机器人的分词能力。这就像一个专门考验厨师刀工的比赛,不仅要看他们能不能切出漂亮的丝,还要测试在各种"恶劣条件"下的表现,比如刀具不锋利时、食材不新鲜时、或者厨房环境嘈杂时。

测试内容覆盖了五种语言:英语、中文、土耳其语、意大利语和波斯语。选择这些语言并非随意,每种语言都代表了不同的文字挑战。英语相对简单,中文是汉字系统,波斯语使用阿拉伯文字且有可选的音标,土耳其语是黏着语(词汇变化复杂),意大利语则代表了拉丁语族的特点。

测试的"陷阱"设计得非常巧妙,模拟了现实世界中可能遇到的各种情况。比如,当用户在土耳其语键盘上打字时,某些特殊字符可能会变成相似但不同的字符。再比如,当波斯语文本中的可选音标被添加或省略时,分词器是否还能正确处理。还有一些测试模拟了OCR识别错误,比如把字母"O"误认为数字"0",或者把"I"误认为"l"。

更有趣的是Unicode格式化测试,研究团队使用了各种特殊的Unicode字符来"装饰"普通文字。比如把普通的"Python"变成花体的"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一定要大量读书:一个人修行高不高,就看他有没有读过这10本书

一定要大量读书:一个人修行高不高,就看他有没有读过这10本书

欣辰读书
2026-05-15 22:59:03
夏天,遇见这肉再贵也要吃,比牛羊肉补,一周吃2次,健脾强免疫

夏天,遇见这肉再贵也要吃,比牛羊肉补,一周吃2次,健脾强免疫

阿龙美食记
2026-06-03 14:09:28
狗屎运爆棚!6月转运起飞,喜从天降,财富说来就来的3个生肖

狗屎运爆棚!6月转运起飞,喜从天降,财富说来就来的3个生肖

毅谈生肖
2026-06-03 11:31:13
尾盘罕见,不到400万元,301418拉升逾16%

尾盘罕见,不到400万元,301418拉升逾16%

数据宝
2026-06-03 15:33:46
最多3年2.07亿!这是步行者给西亚卡姆的全部,能否续约已有答案

最多3年2.07亿!这是步行者给西亚卡姆的全部,能否续约已有答案

奕辰说球
2026-06-03 09:44:45
知名演员无戏可拍,和母亲街边卖鱼意外走红,今选择拍视频当网红

知名演员无戏可拍,和母亲街边卖鱼意外走红,今选择拍视频当网红

白面书誏
2026-05-27 20:46:32
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
海藻为什么是男人眼中的极品

海藻为什么是男人眼中的极品

乡野小珥
2026-06-01 18:15:36
再见,杨瀚森,8换1或去雄鹿

再见,杨瀚森,8换1或去雄鹿

体育新角度
2026-06-02 19:59:18
16名国脚?曼城自己都嫌不够,19人出征世界杯创英超纪录!

16名国脚?曼城自己都嫌不够,19人出征世界杯创英超纪录!

茅塞盾开本尊
2026-06-03 15:04:05
鸟巢撒糖不到24小时!张柏芝突然官宣两大喜讯,网友:不对劲!

鸟巢撒糖不到24小时!张柏芝突然官宣两大喜讯,网友:不对劲!

林轻吟
2026-06-02 22:43:18
生育大局已定:不出意外的话,26年起中国人口将迎来3大明显变化

生育大局已定:不出意外的话,26年起中国人口将迎来3大明显变化

阿凫爱吐槽
2026-05-23 04:14:26
NBA史上最具含金量的10个FMVP:乔丹两次上榜,11年诺天王第三!

NBA史上最具含金量的10个FMVP:乔丹两次上榜,11年诺天王第三!

钱说体育
2026-06-03 10:01:55
学医后才明白,稳定血糖最好的运动,不是快走慢跑,而是这个

学医后才明白,稳定血糖最好的运动,不是快走慢跑,而是这个

健康科普365
2026-06-02 19:45:05
单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

互联网思维
2026-05-29 23:35:13
4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

李晚书
2026-06-01 10:53:54
抢七出局!交易重来!雷霆大豪赌!三大球星选谁?

抢七出局!交易重来!雷霆大豪赌!三大球星选谁?

篮球盛世
2026-06-03 15:18:38
属猴人:后半生最大的靠山,不是子女,不是财运,而是这2个人

属猴人:后半生最大的靠山,不是子女,不是财运,而是这2个人

阿龙美食记
2026-05-29 22:02:25
王皓底牌大揭秘:暴揍张本智和前,梁靖崑被叫进房间问了三个问题

王皓底牌大揭秘:暴揍张本智和前,梁靖崑被叫进房间问了三个问题

不似少年游
2026-06-03 14:56:50
5月销量一公布,有些新能源车真的危险了!

5月销量一公布,有些新能源车真的危险了!

西莫的艺术宫殿
2026-06-03 00:31:19
2026-06-03 16:39:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8614文章数 564关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

亲子
房产
健康
旅游
手机

亲子要闻

“托举孩子进山姆”:“全职宝妈”错了,但也不必网暴 | 新京报快评

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

违规干细胞抗衰美容,为何肆无忌惮

旅游要闻

海拔3666米的牛背山,凭啥承接“登超”?

手机要闻

荣耀确认Robot Phone手机初代抗跌落已经是旗舰水平

无障碍浏览 进入关怀版