网易首页 > 网易号 > 正文 申请入驻

吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界

0
分享至

明敏 杨净 发自 凹非寺
量子位 | 公众号 QbitAI

没想到时至今日,ChatGPT竟还会犯低级错误?

吴恩达大神最新开课就指出来了:

ChatGPT不会反转单词!

比如让它反转下lollipop这个词,输出是pilollol,完全混乱。

哦豁,这确实有点大跌眼镜啊。

以至于听课网友在Reddit上发帖后,立马引来大量围观,帖子热度火速冲到6k

而且这不是偶然bug,网友们发现ChatGPT确实无法完成这个任务,我们亲测结果也同样如此。

△实测ChatGPT(GPT-3.5)

甚至包括Bard、Bing、文心一言在内等一众产品都不行。

△实测Bard

△实测文心一言

还有人紧跟着吐槽, ChatGPT在处理这些简单的单词就是很糟糕。

比如玩此前曾爆火的文字游戏Wordle简直就是一场灾难,从来没有做对过。

诶?这到底是为啥?

关键在于token

之所以有这样的现象,关键在于token。token是文本中最常见的字符序列,而大模型都是用token来处理文本。

它可以是整个单词,也可以是单词一个片段。大模型了解这些token之间的统计关系,并且擅长生成下一个token。

因此在处理单词反转这个小任务时,它可能只是将每个token翻转过来,而不是字母。

这点放在中文语境下体现就更为明显:一个词是一个token,也可能是一个字是一个token。

针对开头的例子,有人尝试理解了下ChatGPT的推理过程。

为了更直观的了解,OpenAI甚至还出了个GPT-3的Tokenizer

比如像lollipop这个词,GPT-3会将其理解成I、oll、ipop这三个部分。

根据经验总结,也就诞生出这样一些不成文法则。

  • 1个token≈4个英文字符≈四分之三个词;
  • 100个token≈75个单词;
  • 1-2句话≈30个token;
  • 一段话≈100个token,1500个单词≈2048个token;

单词如何划分还取决于语言。此前有人统计过,中文要用的token数是英文数量的1.2到2.7倍

token-to-char(token单词)比例越高,处理成本也就越高。因此处理中文tokenize要比英文更贵

可以这样理解,token是大模型认识理解人类现实世界的方式。它非常简单,还能大大降低内存和时间复杂度。

但将单词token化存在一个问题,就会使模型很难学习到有意义的输入表示,最直观的表示就是不能理解单词的含义。

当时Transformers有做过相应优化,比如一个复杂、不常见的单词分为一个有意义的token和一个独立token。

就像annoyingly就被分成“annoying”和“ly”,前者保留了其语义,后者则是频繁出现。

这也成就了如今ChatGPT及其他大模型产品的惊艳效果,能很好地理解人类的语言。

至于无法处理单词反转这样一个小任务,自然也有解决之道。

最简单直接的,就是你先自己把单词给分开喽~

或者也可以让ChatGPT一步一步来,先tokenize每个字母。

又或者让它写一个反转字母的程序,然后程序的结果对了。(狗头)

不过也可以使用GPT-4,实测没有这样的问题。

△实测GPT-4

总之,token就是AI理解自然语言的基石。

而作为AI理解人类自然语言的桥梁,token的重要性也越来越明显。

它已经成为AI模型性能优劣的关键决定因素,还是大模型的计费标准。

甚至有了token文学

正如前文所言,token能方便模型捕捉到更细粒度的语义信息,如词义、词序、语法结构等。其顺序、位置在序列建模任务(如语言建模、机器翻译、文本生成等)中至关重要。

模型只有在准确了解每个token在序列中的位置和上下文情况,才能更好正确预测内容,给出合理输出。

因此,token的质量、数量对模型效果有直接影响

今年开始,越来越多大模型发布时,都会着重强调token数量,比如谷歌PaLM 2曝光细节中提到,它训练用到了3.6万亿个token。

以及很多行业内大佬也纷纷表示,token真的很关键!

今年从特斯拉跳槽到OpenAI的AI科学家安德烈·卡帕斯(Andrej Karpathy)就曾在演讲中表示:

更多token能让模型更好思考。

而且他强调,模型的性能并不只由参数规模来决定。

比如LLaMA的参数规模远小于GPT-3(65B vs 175B),但由于它用更多token进行训练(1.4T vs 300B),所以LLaMA更强大。

而凭借着对模型性能的直接影响,token还是AI模型的计费标准

以OpenAI的定价标准为例,他们以1K个token为单位进行计费,不同模型、不同类型的token价格不同。

总之,踏进AI大模型领域的大门后,就会发现token是绕不开的知识点。

嗯,甚至衍生出了token文学……

不过值得一提的是,token在中文世界里到底该翻译成啥,现在还没有完全定下来。

直译“令牌”总是有点怪怪的。

GPT-4觉得叫“词元”或“标记”比较好,你觉得呢?

参考链接:
[1]https://www.reddit.com/r/ChatGPT/comments/13xxehx/chatgpt_is_unable_to_reverse_words/
[2]https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
[3]https://openai.com/pricing

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
33岁湖人旧将突然去世!遗体在洛杉矶被发现 曾效力CBA联赛

33岁湖人旧将突然去世!遗体在洛杉矶被发现 曾效力CBA联赛

罗说NBA
2024-05-05 03:38:05
不出5年,中国贬值最快的不是房子、股票,而是这3个东西

不出5年,中国贬值最快的不是房子、股票,而是这3个东西

庞明说财经
2024-04-16 22:29:34
抗美援朝选帅“弃林任彭”,是毛泽东大谋略:防止林彭二人坐大

抗美援朝选帅“弃林任彭”,是毛泽东大谋略:防止林彭二人坐大

阿胡
2024-05-03 11:42:55
混战一夜大获全胜?美军已提前参战,美媒:全拦截背后是美国功劳

混战一夜大获全胜?美军已提前参战,美媒:全拦截背后是美国功劳

慕容梓宜
2024-05-02 22:26:19
石宇奇:不知道金廷第二局发生什么 好的表现来源于过好心理关

石宇奇:不知道金廷第二局发生什么 好的表现来源于过好心理关

直播吧
2024-05-05 19:48:22
加沙顶尖外科医生疑遭酷刑后死于以色列监狱,被抓时正在医院救人

加沙顶尖外科医生疑遭酷刑后死于以色列监狱,被抓时正在医院救人

红星新闻
2024-05-04 14:24:19
王莲香:说实话,世界女羽坛,配得上“女球王”仅4人,我不够格

王莲香:说实话,世界女羽坛,配得上“女球王”仅4人,我不够格

小鬼头体育
2024-05-05 17:15:05
比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

简读视觉
2024-04-13 08:40:03
德国网友:人类迎回了自己的领袖。

德国网友:人类迎回了自己的领袖。

呆萌的叶子
2024-05-05 13:17:27
F-16,虽迟但到!

F-16,虽迟但到!

娱宙观
2024-05-05 09:48:25
卢嘉丽性贿赂大案揭秘

卢嘉丽性贿赂大案揭秘

我是娱有理
2024-05-05 07:19:25
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
乌克兰获首批F16,以哈人质协议再失败

乌克兰获首批F16,以哈人质协议再失败

难得君
2024-05-05 00:06:59
特斯拉为什么要放弃一体压铸?

特斯拉为什么要放弃一体压铸?

郑谊
2024-05-05 13:29:04
美国犹太法案通过之后,犹太水军开始进入我们的互联网了

美国犹太法案通过之后,犹太水军开始进入我们的互联网了

怪口历史的K先生
2024-05-05 09:56:14
胖猫女友多张生活照流出,很迷人!胖猫跳江时,女友还在喝酒寻欢

胖猫女友多张生活照流出,很迷人!胖猫跳江时,女友还在喝酒寻欢

影孖看世界
2024-05-05 15:32:24
记者:申花战术根据对手随时调整,球员统一斯卢茨基功不可没

记者:申花战术根据对手随时调整,球员统一斯卢茨基功不可没

直播吧
2024-05-05 20:10:34
CBA,张镇麟接受采访,回应了自己遭到徐杰怒吼

CBA,张镇麟接受采访,回应了自己遭到徐杰怒吼

体育哲人
2024-05-04 22:54:49
不断抽贷阿里旗下又一企业败走江湖,网商银行资产缩水高达500亿

不断抽贷阿里旗下又一企业败走江湖,网商银行资产缩水高达500亿

鹏飞深文
2024-05-05 11:44:13
100%传奇!莫德里奇夺得皇马生涯第25冠 皇马122年队史最多

100%传奇!莫德里奇夺得皇马生涯第25冠 皇马122年队史最多

直播吧
2024-05-05 04:34:09
2024-05-05 22:18:44
量子位
量子位
追踪人工智能动态
9355文章数 175239关注度
往期回顾 全部

科技要闻

Meta买英伟达GPU已花300亿美元 超当年登月

头条要闻

夫妻驾驶特斯拉冲下山路身亡 行车记录仪数据消失不见

头条要闻

夫妻驾驶特斯拉冲下山路身亡 行车记录仪数据消失不见

体育要闻

2年,从英甲到英超!37岁的他创造奇迹

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

20大要点!巴菲特谈聊到AI、苹果、投资

汽车要闻

"高阶智驾"配上了 极狐阿尔法S先行版PRO亮相

态度原创

手机
家居
亲子
数码
教育

手机要闻

灵动岛还要再用两代:曝苹果屏下Face ID要等到iPhone 18 Pro

家居要闻

心之所栖 黑白灰色系打造设计专属感

亲子要闻

教孩子烧菜、做饭、磨豆浆……丽水这些幼儿园“不养闲娃 ”

数码要闻

最多192核心!AMD Zen5 EPYC已大规模出样

教育要闻

南京中考数学:妥妥的送分题,大部分考生却做错

无障碍浏览 进入关怀版