![]()
![]()
比如“人工智能正在重塑全球的信息基础设施”这句话:GPT-4切出19个token(几乎每个字拆成1-2个),而Qwen只切6个(“人工智能”算一个token)。为啥?因为tokenizer的词表设计不同。
![]()
![]()
今天的tokenizer优化,就像林语堂的尝试:为了效率合并汉字,却意外关闭了Unicode编码带来的语义通道。历史不是直线进化,而是在约束中变形,有些能力是设计出来的,有些只是碰巧没被删掉。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.