网易首页 > 网易号 > 正文 申请入驻

谷歌把"Apple"读成水果还是公司?

0
分享至

你的邮件里写着"下周三和苹果的人开会",谷歌日历却自动跳出了提醒。它怎么知道这是日程而非水果?答案藏在一种叫"词元分类"的技术里——它让机器给每个词贴标签,就像班主任给每个学生分配职务。

自然语言处理(NLP,Natural Language Processing)是机器理解人类语言的桥梁。但大多数人熟悉的"序列分类"(比如判断整句话是正面还是负面情绪)太粗糙了。词元分类(Token Classification)要细得多:它逐个检查每个词,决定"苹果"在这里是ORG(组织)还是FRUIT(水果)。

没有这种技术,机器就是把句子当"词袋子"乱晃

2019年之前,主流做法确实如此。词袋模型(Bag of Words)把"猫坐在垫子上"和"垫子上坐着猫"视为同一句话——词都在,顺序不管。这种粗暴处理让早期语音助手闹过笑话:用户说"不要播放这首歌",它听到"播放"就执行了。

词元分类改变了游戏规则。它给每个词分配角色:主语、谓语、时间实体、公司名称。谷歌的日期提取、Alexa的指令理解、医疗系统的症状识别,底层都是同一套逻辑。

但这里有个反直觉的点:机器并不"认识"词,它只认识数字。

所有词先被转成向量——高维空间里的坐标。"国王"减"男人"加"女人"约等于"女王",这种算术关系就是向量空间的魔法。词元分类模型在这些向量上操作,判断每个坐标点该贴什么标签。

三种实战形态:从人名到医疗记录

命名实体识别(NER,Named Entity Recognition)是最常见的应用。模型扫描文本,把"马斯克"标为PER(人名),"特斯拉"标为ORG(组织),"2024年6月"标为DATE。斯坦福的CoreNLP库早期版本在这项任务上的F1分数约0.89,而2023年的BERT-large模型在CoNLL-2003数据集上达到了0.93。

词性标注(POS Tagging)更基础。它区分"lead"是名词(铅)还是动词(带领)。这对机器翻译至关重要——英语"Date"可能是约会或枣子,德语对应完全不同的词。

最细粒度的是分块(Chunking)。它把"纽约证券交易所"识别为一个完整的名词短语,而非"纽约"+"证券"+"交易所"三个独立词。金融风控系统靠这个抓出合同里的关键条款,避免人工逐行审阅。

医疗领域正在发生更激进的实验。

梅奥诊所2022年披露的系统,用词元分类从电子病历中提取药物副作用。传统方法靠医生手动编码,覆盖率不足30%。新系统扫描非结构化病历文本,识别"患者服用X药后出现Y症状"的模式,召回率提升到76%。

但误诊风险真实存在。同一篇论文承认,模型把"家族史糖尿病"误标为患者本人病史的概率是12%。这解释了为什么FDA至今没有批准完全自动化的临床决策系统——词元分类是辅助工具,不是终审法官。

技术瓶颈:当语言开始"作弊"

多义词仍是硬骨头。"小米"在农业文本中是谷物,在科技新闻中是公司。上下文嵌入(Contextual Embedding)部分解决了这个问题:BERT会同时观察"小米"前后的词,调整其向量表示。但2023年的一项研究显示,在包含100个以上实体的长文档中,远距离指代消解的错误率仍高达23%。

低资源语言更麻烦。词元分类依赖大量标注数据,而斯瓦希里语或冰岛语的标注语料稀缺到可以忽略。Meta的"无监督跨语言迁移"项目尝试用英语模型直接处理其他语言,准确率平均下降34个百分点。

一个被低估的战场是中文分词本身。

英文天然有空格分隔词元,中文没有。"南京市长江大桥"可以是"南京/市/长江/大桥",也可以是"南京市/长江/大桥"。错误的分词直接导致后续分类崩盘。HanLP等中文工具包采用双层架构:先分词,再做NER,错误级联问题至今没有完美解法。

2024年的新变量:大模型还需要词元分类吗

GPT-4这类生成模型似乎模糊了边界。它们不显式输出"ORG"或"PER"标签,却能直接回答"这段话提到了哪些公司"。这引发了一场工具链迁移:越来越多团队用提示工程(Prompt Engineering)替代专用NER模型,在特定场景下成本降低60%以上。

但完全替代尚未发生。词元分类模型的优势在于确定性和效率。一个轻量化的DistilBERT在CPU上每秒处理2000个词,而调用GPT-4的API成本高出两个数量级。高频、低延迟的场景——比如实时过滤用户评论中的敏感实体——仍需要传统方案。

更微妙的差异在可控性。词元分类的标签体系由人工定义,输出可审计、可拦截。大模型的"理解"是黑箱,你很难强制它按固定格式输出实体边界。金融监管和医疗合规场景对此极度敏感。

微软2023年的一篇技术博客透露了混合策略:用GPT-4生成训练数据,蒸馏给专用小模型。这样既保留了大模型的泛化能力,又获得了传统方案的部署效率。这种"大模型当老师,小模型当工人"的模式,正在成为企业落地的默认路径。

你的日历提醒、语音助手的指令解析、病历系统的信息抽取——这些日常体验的背后,是无数词被逐一枚举、分类、贴上标签。当技术足够隐形,用户反而意识不到它的存在。但下一次谷歌正确识别"苹果"是公司而非水果时,你知道该感谢什么了。

如果大模型最终吞噬了所有垂直任务,词元分类会退化成历史脚注,还是以某种形态嵌入新一代架构的底层?现在押注任何一方,可能都还为时过早。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于变天了!欧尔班大选惨败,两大阵营生死之战落下帷幕

终于变天了!欧尔班大选惨败,两大阵营生死之战落下帷幕

史政先锋
2026-04-13 09:30:42
伊朗谈判代表团成员:世界将见证霍尔木兹海峡的新格局

伊朗谈判代表团成员:世界将见证霍尔木兹海峡的新格局

财联社
2026-04-12 18:50:03
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

冰雅忆史
2026-04-12 07:05:10
越扒瓜越大!外媒再曝全红婵被霸凌猛料,远不止言语辱骂这么简单

越扒瓜越大!外媒再曝全红婵被霸凌猛料,远不止言语辱骂这么简单

社会日日鲜
2026-04-10 10:38:17
损伤闺蜜6.8万紫貂大衣女子发声:她工作丢了,要把闺蜜送进去

损伤闺蜜6.8万紫貂大衣女子发声:她工作丢了,要把闺蜜送进去

江山挥笔
2026-04-12 09:32:03
13年前,“宁坐宝马哭,不坐自行车笑”的女孩马诺,如今怎么样了

13年前,“宁坐宝马哭,不坐自行车笑”的女孩马诺,如今怎么样了

阿废冷眼观察所
2026-04-12 21:42:57
1-1绝平!李金羽郑智赛后翻脸,老队友情谊因输赢碎一地

1-1绝平!李金羽郑智赛后翻脸,老队友情谊因输赢碎一地

阿晞体育
2026-04-12 17:10:35
匈牙利蒂萨党在国会选举中获胜

匈牙利蒂萨党在国会选举中获胜

每日经济新闻
2026-04-13 07:39:20
王石被抓?回应:“造谣”“已去报案路上”

王石被抓?回应:“造谣”“已去报案路上”

新京报
2026-04-12 19:58:08
NBA东西部排名全确定:附加赛8队激烈角逐 首轮湖火/掘狼看点十足

NBA东西部排名全确定:附加赛8队激烈角逐 首轮湖火/掘狼看点十足

颜小白的篮球梦
2026-04-13 11:26:21
穿衣不自由!女解说被批裙子太短 全身涂黑上镜回击

穿衣不自由!女解说被批裙子太短 全身涂黑上镜回击

游民星空
2026-04-12 12:56:12
火箭斗湖人!破解包夹杜兰特,乌度卡已有对策?21岁射手或是关键

火箭斗湖人!破解包夹杜兰特,乌度卡已有对策?21岁射手或是关键

熊哥爱篮球
2026-04-13 11:48:19
又死了一对一年赚200万的

又死了一对一年赚200万的

求实处
2026-04-11 22:29:22
火车卧铺上邂逅一位美女,隧道内黑暗中发生的事,让我一生难忘

火车卧铺上邂逅一位美女,隧道内黑暗中发生的事,让我一生难忘

秋风专栏
2025-02-22 16:23:52
愤怒的李想和遭到围攻的理想汽车

愤怒的李想和遭到围攻的理想汽车

界面新闻
2026-04-13 10:01:09
王珞丹现状:搬进深山生活,母亲不再催婚,41岁和两只狗相依为命

王珞丹现状:搬进深山生活,母亲不再催婚,41岁和两只狗相依为命

冷紫葉
2026-04-11 16:48:00
鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

史之铭
2026-04-12 17:59:01
别再被假照片骗了!这才是陈丽华年轻时真实长相,脸型根本对不上

别再被假照片骗了!这才是陈丽华年轻时真实长相,脸型根本对不上

陈意小可爱
2026-04-12 19:05:19
高市早苗尴尬了!东京吹捧日韩关系不到12小时,韩国发来强烈抗议

高市早苗尴尬了!东京吹捧日韩关系不到12小时,韩国发来强烈抗议

兴史兴谈
2026-04-12 10:48:41
身材是真绝了!令和时代的峰不二子!

身材是真绝了!令和时代的峰不二子!

贵圈真乱
2026-04-13 10:12:43
2026-04-13 12:07:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
1292文章数 15关注度
往期回顾 全部

科技要闻

传荣耀与字节跳动接洽“豆包手机”合作

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

封锁,还是收费站?

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

家居
房产
数码
教育
旅游

家居要闻

复古风格 自然简约

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

数码要闻

海信空调三十而立,以智能化开启空气产业新征程

教育要闻

这8件幸福的小事,父母每周做两件,养出高能量的小孩

旅游要闻

“来密云看海”——北京密云城市品牌发布

无障碍浏览 进入关怀版