NLP工程师踩坑3年发现：80%时间花在洗数据，模型只占20%|词干|语料|缩写|nlp|新论文

NLP工程师踩坑3年发现：80%时间花在洗数据，模型只占20%

2026-04-10 10:39:54　来源: 固件更新中

北京举报

分享至

做NLP的人有个黑色幽默：你以为自己在训练AI，实际上在当文字保洁。用户扔给你的是"在吗？？？急！！！"和"在吗急"，模型想要的是规整的token。这中间隔着一条叫preprocessing的鸿沟，多数人低估了它的宽度。

最近一份行业调研显示，NLP项目平均把78%的工时花在数据清洗上。不是调参，不是架构创新，是处理大小写混用、表情符号乱飞、缩写词典比代码还长的原始文本。有个工程师在论坛吐槽：「我清理了三个月的社交媒体语料，最后发现30%是机器人发的广告。」

预处理的标准流程像一条流水线：先分词把句子切成块，再去停用词扔掉"的、了、是"，接着做词干提取把"running/run/ran"捏成同一个形状。每一步都在做妥协——中文分词遇到"南京市长江大桥"会愣住，英文词干提取可能把"university"和"universe"当成亲戚。

最隐蔽的坑是你以为洗干净了。某医疗AI团队用清洗后的病历训练诊断模型，上线后准确率暴跌。复盘发现，预处理时统一把"CA"转成了小写"ca"，而病历里的"CA"有时是癌症缩写，有时是钙元素符号。这个细节没人写进文档。

现在主流框架都在把预处理埋进底层，调用者感知不到。但故障排查时，问题往往出在你看不见的那层。有个细节：OpenAI的tokenizer会把"Tokenizer"拆成"Token"和"izer"——它见过太多拼写变体，学会了保守策略。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

NLP工程师踩坑3年发现：80%时间花在洗数据，模型只占20%

9000亿美元估值，Anthropic即将反超OpenAI

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

季后赛场均5.4分，他凭啥在骑士打首发？

孙杨博士学历有问题？官方含糊其辞

易会满被“双开”！

专访捷途汪如生：捷途双线作战 全球化全面落地

态度原创

灵动实用 生活艺术场

用青花瓷的方式，打开西溪湿地

华硕创X 2026骁龙X2 Elite二合一创作本上架，12999元

熬了6年，涨了2亿，三亚核心区这块地再次上架

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

专访捷途汪如生：捷途双线作战全球化全面落地

灵动实用生活艺术场