网易首页 > 网易号 > 正文 申请入驻

多伦多大学发现:聊天机器人的"嘴巴"影响它们的智商

0
分享至


当我们与聊天机器人对话时,很少有人会思考一个有趣的问题:这些机器人是如何理解我们的文字的?事实上,在机器人能够理解我们说什么之前,它们需要先把我们的文字"切碎"成小块,就像厨师在烹饪前需要先把食材切成合适的大小一样。这个过程叫做"分词",而负责这项工作的工具叫做"分词器"。

这项由多伦多大学的古尔·塞纳·阿尔廷塔什和马利克·埃格哈吉领导的研究团队发表于2025年12月的最新研究揭示了一个惊人的发现:分词器的选择会像给机器人换了一张嘴一样,直接影响它们的思考能力和表现水平。团队成员还包括来自谷歌DeepMind的布赖恩·莱斯特、麦吉尔大学的冯渊刘、剑桥大学的万如赵等多位研究者。有兴趣深入了解的读者可以通过arXiv编号2512.20757查询完整论文。

为了探究这个问题,研究团队做了一个前所未有的实验:他们创建了14个完全相同的聊天机器人,唯一的区别就是给它们配备了不同的"嘴巴",也就是不同的分词器。这就像是培养了14个基因完全相同的孩子,然后让他们学习不同的语言切分方式,最后观察他们在理解和表达能力上的差异。同时,研究团队还精心设计了一套测试题,专门用来检验这些机器人在面对各种文字"陷阱"时的表现。

一、为什么机器人需要"切词师傅"

在深入探讨研究发现之前,我们需要理解一个基本问题:为什么机器人不能直接理解我们的文字呢?这就像人类婴儿学习语言的过程一样。当你对一个刚学会说话的孩子说"我爱你"时,孩子需要先学会把这句话分解成"我"、"爱"、"你"三个部分,然后理解每个部分的含义,最后把它们组合起来理解整句话的意思。

机器人面临着同样的挑战,但它们的处理方式更加复杂。不同的分词器就像不同的语言老师,有些老师喜欢把词汇切得很细,比如把"大学生"切成"大"、"学"、"生"三个部分;有些老师则倾向于保持完整,把"大学生"作为一个整体来处理。还有一些特殊的分词器甚至会直接处理每一个字母或字符,就像教孩子从最基础的笔画开始学习汉字一样。

研究团队选择了14种不同类型的分词器,它们代表了当前最主流的"切词"方法。这些分词器包括了Google的ByT5(字符级处理)、微软的TokenMonster(特殊算法)、GPT-2(经典方法)、以及各大公司最新开发的分词技术,比如Meta的Llama系列、Google的Gemma系列等。每种分词器都有自己的"个性":有些擅长处理英文,有些对多种语言都很友好,有些词汇量庞大,有些则相对精简。

更有趣的是,研究团队发现这些分词器在处理同样内容时会产生完全不同的结果。比如说"doctor"(医生)这个词,如果遇到拼写错误变成"doctro",不同的分词器会有截然不同的处理方式。有些会把它切成"doc"和"tro",有些会切成"doct"和"ro",而字符级的分词器则会一个字母一个字母地处理。这种差异看似微小,但就像蝴蝶效应一样,会对最终的理解能力产生巨大影响。

二、史无前例的公平比赛

要真正了解分词器对机器人能力的影响,最大的挑战是如何确保比较的公平性。这就像要测试不同品牌的跑鞋对运动员成绩的影响,你需要确保参与测试的运动员在身体素质、训练程度、跑步技巧等方面都完全相同,唯一的变量就是脚上穿的鞋子。

研究团队采用了一个巧妙的方法来解决这个问题。他们首先创建了一个"超级词汇表",这个词汇表包含了所有14种分词器能够识别的所有词汇。然后,他们为每个分词器建立了一个映射关系,确保相同的词汇在所有模型中都对应相同的初始理解。这样做的好处是,所有机器人都从完全相同的起点开始学习,就像14个学生拿到了相同的教材,只是老师教授的方法不同。

训练过程同样严格控制变量。所有14个模型都使用了相同的神经网络架构,都有大约10亿个参数,都接受了相同的训练数据,训练时间也完全一致。训练数据包含了大约1000亿个词汇,其中40%是英文内容,其余60%平均分配给中文、土耳其语、意大利语和波斯语。这种设计确保了任何性能差异都可以直接归因于分词器的影响,而不是其他因素。

然而,这种严格控制也带来了一个有趣的现象。由于不同分词器的压缩效率不同,虽然所有模型都处理了相同数量的词汇单位,但它们实际"阅读"的原始文本量却不相同。就像有些阅读者习惯快速浏览获取要点,有些则喜欢字斟句酌,结果在相同时间内接触到的信息量会有差异。ByT5由于采用字符级处理,实际只处理了大约100GB的原始文本,而其他分词器处理的文本量在215GB到477GB之间。

三、精心设计的"陷阱"测试

为了全面评估不同分词器的影响,研究团队设计了一套包含约5000个问题的测试套件,这些测试题专门用来"为难"机器人的分词能力。这就像一个专门考验厨师刀工的比赛,不仅要看他们能不能切出漂亮的丝,还要测试在各种"恶劣条件"下的表现,比如刀具不锋利时、食材不新鲜时、或者厨房环境嘈杂时。

测试内容覆盖了五种语言:英语、中文、土耳其语、意大利语和波斯语。选择这些语言并非随意,每种语言都代表了不同的文字挑战。英语相对简单,中文是汉字系统,波斯语使用阿拉伯文字且有可选的音标,土耳其语是黏着语(词汇变化复杂),意大利语则代表了拉丁语族的特点。

测试的"陷阱"设计得非常巧妙,模拟了现实世界中可能遇到的各种情况。比如,当用户在土耳其语键盘上打字时,某些特殊字符可能会变成相似但不同的字符。再比如,当波斯语文本中的可选音标被添加或省略时,分词器是否还能正确处理。还有一些测试模拟了OCR识别错误,比如把字母"O"误认为数字"0",或者把"I"误认为"l"。

更有趣的是Unicode格式化测试,研究团队使用了各种特殊的Unicode字符来"装饰"普通文字。比如把普通的"Python"变成花体的"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马云预言成真?2026年,手握存款的人,或将面临三大挑战

马云预言成真?2026年,手握存款的人,或将面临三大挑战

春秋论娱
2026-01-02 07:07:00
申花官宣6人离队

申花官宣6人离队

五星体育
2026-01-01 13:24:17
36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

桃烟读史
2025-12-31 21:38:26
2026年1月Switch/Switch2新游戏发售表:顶级3A大作终于登场!

2026年1月Switch/Switch2新游戏发售表:顶级3A大作终于登场!

叨叨游戏
2026-01-01 15:49:14
国乒教练竞聘结束!王励勤动真格,3位新人上任,楚钦曼昱好消息

国乒教练竞聘结束!王励勤动真格,3位新人上任,楚钦曼昱好消息

卿子书
2026-01-02 08:28:52
以前对钱没概念,觉得3000房贷很低,现在知道什么叫“半辈子”了

以前对钱没概念,觉得3000房贷很低,现在知道什么叫“半辈子”了

另子维爱读史
2026-01-01 23:03:47
他是清华北大所有女生心中的男神,但他为了一个承诺,一生未娶

他是清华北大所有女生心中的男神,但他为了一个承诺,一生未娶

不写散文诗
2026-01-01 20:23:49
伊朗总统发声:伊朗正处于一场全面战争中!

伊朗总统发声:伊朗正处于一场全面战争中!

每日经济新闻
2026-01-01 22:43:32
西方彻底破防!简直杀人诛心,中国这个“优势”不可战胜...

西方彻底破防!简直杀人诛心,中国这个“优势”不可战胜...

毛豆论道
2025-12-29 19:31:56
高原翻车+领先被绝杀!五星巴西双线溃败,安帅成最大背锅侠

高原翻车+领先被绝杀!五星巴西双线溃败,安帅成最大背锅侠

阿晞体育
2026-01-02 07:53:10
湖人双巨迎新年!詹姆斯晒一箱大龙虾晚餐 东契奇深情告别2025年

湖人双巨迎新年!詹姆斯晒一箱大龙虾晚餐 东契奇深情告别2025年

追球者
2026-01-01 09:14:41
畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

瓜汁橘长Dr
2025-12-28 16:39:19
1年倒闭300万家!60%活不过12个月,昔日创业首选生意也撑不住了

1年倒闭300万家!60%活不过12个月,昔日创业首选生意也撑不住了

品牌观察官
2025-12-31 19:49:35
郭靖夫妇死后,黄药师发现一枚旧玉佩脸色大变:孩子父亲不是郭靖

郭靖夫妇死后,黄药师发现一枚旧玉佩脸色大变:孩子父亲不是郭靖

萧竹轻语
2025-12-31 09:26:48
领先29分也不下!快船进入啃老模式,卢指导解锁伦纳德新用法

领先29分也不下!快船进入啃老模式,卢指导解锁伦纳德新用法

奕辰说球
2026-01-01 21:49:01
徐杰受伤,广东男篮不敌北京男篮,赛后听听媒体专家怎么说

徐杰受伤,广东男篮不敌北京男篮,赛后听听媒体专家怎么说

邹维体育
2026-01-01 21:36:20
因长得像中国人,印度男青年在街头被围殴打死!

因长得像中国人,印度男青年在街头被围殴打死!

荆楚寰宇文枢
2025-12-31 21:59:57
2025十佳运动员出炉:全红婵落榜,孙颖莎位列第四,他意外上榜

2025十佳运动员出炉:全红婵落榜,孙颖莎位列第四,他意外上榜

阿纂看事
2025-12-30 09:22:12
桑德兰主帅:曼城的威胁太多了,拿到一分是一个很好的结果

桑德兰主帅:曼城的威胁太多了,拿到一分是一个很好的结果

懂球帝
2026-01-02 07:20:48
优惠超过15万!2026款宝马5系价格大跳水,值得买吗?

优惠超过15万!2026款宝马5系价格大跳水,值得买吗?

科技美学
2026-01-01 21:40:00
2026-01-02 09:16:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6721文章数 546关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

牛弹琴:欧洲人又整新幺蛾子 中国强烈反对很火大

头条要闻

牛弹琴:欧洲人又整新幺蛾子 中国强烈反对很火大

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

健康
教育
数码
亲子
军事航空

元旦举家出行,注意防流感

教育要闻

“有毛病家长才会同意!”初三女儿要跨年,妈妈喊出家长焦虑

数码要闻

三星显示正式量产全球首款V-Stripe像素结构面板

亲子要闻

去了趟娘家,童车裆部扎了根长针?谨记三岁不离眼,五岁不离手!

军事要闻

泽连斯基:乌全力推动恢复战俘交换工作

无障碍浏览 进入关怀版