网易首页 > 网易号 > 正文 申请入驻

吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界

0
分享至

明敏 杨净 发自 凹非寺
量子位 | 公众号 QbitAI

没想到时至今日,ChatGPT竟还会犯低级错误?

吴恩达大神最新开课就指出来了:

ChatGPT不会反转单词!

比如让它反转下lollipop这个词,输出是pilollol,完全混乱。

哦豁,这确实有点大跌眼镜啊。

以至于听课网友在Reddit上发帖后,立马引来大量围观,帖子热度火速冲到6k

而且这不是偶然bug,网友们发现ChatGPT确实无法完成这个任务,我们亲测结果也同样如此。

△实测ChatGPT(GPT-3.5)

甚至包括Bard、Bing、文心一言在内等一众产品都不行。

△实测Bard

△实测文心一言

还有人紧跟着吐槽, ChatGPT在处理这些简单的单词就是很糟糕。

比如玩此前曾爆火的文字游戏Wordle简直就是一场灾难,从来没有做对过。

诶?这到底是为啥?

关键在于token

之所以有这样的现象,关键在于token。token是文本中最常见的字符序列,而大模型都是用token来处理文本。

它可以是整个单词,也可以是单词一个片段。大模型了解这些token之间的统计关系,并且擅长生成下一个token。

因此在处理单词反转这个小任务时,它可能只是将每个token翻转过来,而不是字母。

这点放在中文语境下体现就更为明显:一个词是一个token,也可能是一个字是一个token。

针对开头的例子,有人尝试理解了下ChatGPT的推理过程。

为了更直观的了解,OpenAI甚至还出了个GPT-3的Tokenizer

比如像lollipop这个词,GPT-3会将其理解成I、oll、ipop这三个部分。

根据经验总结,也就诞生出这样一些不成文法则。

  • 1个token≈4个英文字符≈四分之三个词;
  • 100个token≈75个单词;
  • 1-2句话≈30个token;
  • 一段话≈100个token,1500个单词≈2048个token;

单词如何划分还取决于语言。此前有人统计过,中文要用的token数是英文数量的1.2到2.7倍

token-to-char(token单词)比例越高,处理成本也就越高。因此处理中文tokenize要比英文更贵

可以这样理解,token是大模型认识理解人类现实世界的方式。它非常简单,还能大大降低内存和时间复杂度。

但将单词token化存在一个问题,就会使模型很难学习到有意义的输入表示,最直观的表示就是不能理解单词的含义。

当时Transformers有做过相应优化,比如一个复杂、不常见的单词分为一个有意义的token和一个独立token。

就像annoyingly就被分成“annoying”和“ly”,前者保留了其语义,后者则是频繁出现。

这也成就了如今ChatGPT及其他大模型产品的惊艳效果,能很好地理解人类的语言。

至于无法处理单词反转这样一个小任务,自然也有解决之道。

最简单直接的,就是你先自己把单词给分开喽~

或者也可以让ChatGPT一步一步来,先tokenize每个字母。

又或者让它写一个反转字母的程序,然后程序的结果对了。(狗头)

不过也可以使用GPT-4,实测没有这样的问题。

△实测GPT-4

总之,token就是AI理解自然语言的基石。

而作为AI理解人类自然语言的桥梁,token的重要性也越来越明显。

它已经成为AI模型性能优劣的关键决定因素,还是大模型的计费标准。

甚至有了token文学

正如前文所言,token能方便模型捕捉到更细粒度的语义信息,如词义、词序、语法结构等。其顺序、位置在序列建模任务(如语言建模、机器翻译、文本生成等)中至关重要。

模型只有在准确了解每个token在序列中的位置和上下文情况,才能更好正确预测内容,给出合理输出。

因此,token的质量、数量对模型效果有直接影响

今年开始,越来越多大模型发布时,都会着重强调token数量,比如谷歌PaLM 2曝光细节中提到,它训练用到了3.6万亿个token。

以及很多行业内大佬也纷纷表示,token真的很关键!

今年从特斯拉跳槽到OpenAI的AI科学家安德烈·卡帕斯(Andrej Karpathy)就曾在演讲中表示:

更多token能让模型更好思考。

而且他强调,模型的性能并不只由参数规模来决定。

比如LLaMA的参数规模远小于GPT-3(65B vs 175B),但由于它用更多token进行训练(1.4T vs 300B),所以LLaMA更强大。

而凭借着对模型性能的直接影响,token还是AI模型的计费标准

以OpenAI的定价标准为例,他们以1K个token为单位进行计费,不同模型、不同类型的token价格不同。

总之,踏进AI大模型领域的大门后,就会发现token是绕不开的知识点。

嗯,甚至衍生出了token文学……

不过值得一提的是,token在中文世界里到底该翻译成啥,现在还没有完全定下来。

直译“令牌”总是有点怪怪的。

GPT-4觉得叫“词元”或“标记”比较好,你觉得呢?

参考链接:
[1]https://www.reddit.com/r/ChatGPT/comments/13xxehx/chatgpt_is_unable_to_reverse_words/
[2]https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
[3]https://openai.com/pricing

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马官宣:对互殴2将启动纪律处罚 老佛爷已介入 或停薪停赛+解雇

皇马官宣:对互殴2将启动纪律处罚 老佛爷已介入 或停薪停赛+解雇

我爱英超
2026-05-08 06:31:28
iOS "小狐狸" 最新上架App Store,4K,多源,速收,随时下架!

iOS "小狐狸" 最新上架App Store,4K,多源,速收,随时下架!

新浪财经
2026-05-07 23:08:50
7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

拳击时空
2026-04-16 06:04:48
代表张雪机车夺冠没一个月,法国车手德比斯意外发了笔“横财”

代表张雪机车夺冠没一个月,法国车手德比斯意外发了笔“横财”

真的好爱你
2026-05-08 05:26:44
一季度GDP十强出炉!九座城市跑赢全国,历史罕见

一季度GDP十强出炉!九座城市跑赢全国,历史罕见

清衣渡a
2026-05-08 06:23:02
这部网飞新剧把裸戏拍成了职场纪录片

这部网飞新剧把裸戏拍成了职场纪录片

影视情报室
2026-05-06 23:12:55
任天堂突然直播:这款27年前的游戏有了电影感

任天堂突然直播:这款27年前的游戏有了电影感

全栈遛狗员
2026-05-07 07:30:24
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
痛快!武汉SKP餐厅风波:狗肉不上正席,戳破宠物文化歪风

痛快!武汉SKP餐厅风波:狗肉不上正席,戳破宠物文化歪风

叮当当科技
2026-05-07 20:42:45
外甥被赶出台企,顽固“台独”分子破防了

外甥被赶出台企,顽固“台独”分子破防了

枢密院十号
2026-05-07 19:41:09
专访后24小时,吴宜泽回国真实处境曝光

专访后24小时,吴宜泽回国真实处境曝光

生命之泉的奥秘
2026-05-08 04:27:05
WTA1000罗马站:萨巴伦卡2-0碾压捷克名将,强势晋级32强

WTA1000罗马站:萨巴伦卡2-0碾压捷克名将,强势晋级32强

侧身凌空斩
2026-05-08 04:34:16
一边倒怒批!郑智辱骂裁判被禁6场,舆论为何零同情?真相太扎心

一边倒怒批!郑智辱骂裁判被禁6场,舆论为何零同情?真相太扎心

罗掌柜体育
2026-05-07 12:08:01
军购案协商再破局,赵少康称“被国民党中央骂”,国民党回应亮了

军购案协商再破局,赵少康称“被国民党中央骂”,国民党回应亮了

DS北风
2026-05-06 18:46:10
鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

兴史兴谈
2026-05-07 02:49:01
被刻意抹去的二把手——拆解《人民的名义》中最反现实的政治留白

被刻意抹去的二把手——拆解《人民的名义》中最反现实的政治留白

动物奇奇怪怪
2026-05-08 02:27:03
欧洲带团10年后,我决定戳破那些“中国品牌横扫全球”的粉红泡沫

欧洲带团10年后,我决定戳破那些“中国品牌横扫全球”的粉红泡沫

七分日记
2026-04-29 23:27:20
前体操冠军吴柳芳回应擦边不体面:债没还清,哪有资格谈体面!

前体操冠军吴柳芳回应擦边不体面:债没还清,哪有资格谈体面!

观鱼听雨
2026-05-06 23:04:12
郑钦文获利好!世界第6因伤退赛 下轮将避开强敌 进罗马站8强有戏

郑钦文获利好!世界第6因伤退赛 下轮将避开强敌 进罗马站8强有戏

我爱英超
2026-05-07 22:16:19
冷空气逼近!广东今天有暴雨+8级大风,广东省应急管理厅、气象局联合发布提醒

冷空气逼近!广东今天有暴雨+8级大风,广东省应急管理厅、气象局联合发布提醒

鲁中晨报
2026-05-08 07:14:07
2026-05-08 08:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12585文章数 176461关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

媒体:三星"败退"中国市场有两个原因 先别急着庆祝

头条要闻

媒体:三星"败退"中国市场有两个原因 先别急着庆祝

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

人均年薪406万,这家ST公司惊呆市场!

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

家居
旅游
本地
手机
公开课

家居要闻

破茧成蝶 土味精装房爆改

旅游要闻

江门长堤业态焕新 有商户五一营收倍增

本地新闻

用青花瓷的方式,打开西溪湿地

手机要闻

颜值封神直击果粉内心!iPhone Fold 全新外观曝光,看完瞬间被圈粉

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版