做NLP的人有个黑色幽默:你以为自己在训练AI,实际上在当文字保洁。用户扔给你的是"在吗???急!!!"和"在 吗 急",模型想要的是规整的token。这中间隔着一条叫preprocessing的鸿沟,多数人低估了它的宽度。
最近一份行业调研显示,NLP项目平均把78%的工时花在数据清洗上。不是调参,不是架构创新,是处理大小写混用、表情符号乱飞、缩写词典比代码还长的原始文本。有个工程师在论坛吐槽:「我清理了三个月的社交媒体语料,最后发现30%是机器人发的广告。」
预处理的标准流程像一条流水线:先分词把句子切成块,再去停用词扔掉"的、了、是",接着做词干提取把"running/run/ran"捏成同一个形状。每一步都在做妥协——中文分词遇到"南京市长江大桥"会愣住,英文词干提取可能把"university"和"universe"当成亲戚。
最隐蔽的坑是你以为洗干净了。某医疗AI团队用清洗后的病历训练诊断模型,上线后准确率暴跌。复盘发现,预处理时统一把"CA"转成了小写"ca",而病历里的"CA"有时是癌症缩写,有时是钙元素符号。这个细节没人写进文档。
现在主流框架都在把预处理埋进底层,调用者感知不到。但故障排查时,问题往往出在你看不见的那层。有个细节:OpenAI的tokenizer会把"Tokenizer"拆成"Token"和"izer"——它见过太多拼写变体,学会了保守策略。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.