网易首页 > 网易号 > 正文 申请入驻

搜索怎么懂人话?拆解语义匹配的黑箱

0
分享至

凌晨两点,你对着搜索框输入"机器学习改变生活",系统却秒回了关于人工智能的论文——它怎么知道这两件事是一回事?这不是关键词匹配的巧合,而是一场持续十年的技术革命正在发生。

从"查字典"到"懂意思"


传统搜索像查字典:输入"苹果",它返回所有含这两个字的结果,水果、手机、公司混在一起。用户被迫用引号、减号、site指令来驯服机器。

2018年后,局面变了。以BERT为代表的变换器模型(transformer)开始把整句话压进一个数学空间——不是压缩文件那种,而是把"意思"变成坐标。

原文举了个精妙的对比:

「"Machine Learning affects all areas of life" is much more similar to "Artificial intelligence is transforming the world" than "Maradona was one of the best football players in history"」

三句话都没有重复词汇,但前两句在讨论技术变革,第三句是体育史。人类一眼能分,机器怎么做到?

答案藏在两个技术组件里:嵌入向量(embedding)+ 余弦相似度(cosine similarity)。前者负责"编码意思",后者负责"计算距离"。

嵌入:给每句话发一张高维身份证

想象一个768维的空间——人类只能感知三维,但数学不在乎。在这个空间里,每句话被压缩成一个768个数字组成的向量。这些数字不是随机的:语义相近的句子,坐标点也挨得近。

原文给出的技术细节很关键:

「modern transformer models (like BERT, BART, or GPT) convert entire sentences into dense vectors (typically 768 or 1024 dimensions)」

注意"entire sentences"——不是逐词翻译,而是整句理解。BERT读"机器学习改变生活"时,会把"机器学习"和"改变"的关系也编码进去,这是传统词袋模型(bag-of-words)做不到的。

这个机制直接支撑了四类产品的底层:

• 语义搜索:Google从2019年开始用BERT处理10%英文查询
• RAG系统:大模型回答前先检索相关文档,靠的就是向量匹配
• 推荐引擎:YouTube把视频标题、描述、字幕统统向量化
• 查重检测:Turnitin用相似度算法抓论文抄袭

但光有坐标不够,还需要一把尺子。

余弦相似度:为什么不用直线距离?

原文抛出一个关键选择:「Why cosine and not Euclidean distance?」

欧氏距离(直线距离)会惩罚向量的长度。假设两句话意思完全相同,但一句加了三个形容词变长了,欧氏距离会显示它们"很远"——这显然不合理。

余弦相似度的聪明之处在原文这句话:

「Cosine similarity is magnitude invariant. It only cares about the direction (i.e. the semantic orientation), not the length of the vectors.」

只关心方向,不关心长度。这意味着"AI改变世界"和"人工智能正在深刻改变我们生活的方方面面"会被判定为高度相似,尽管字数差三倍。

原文用4维向量演示了完整计算(真实模型用768维,但数学一致):

源句:"Artificial intelligence is transforming the world." → [0.85, 0.65, 0.12, 0.25]
候选1(体育):"Maradona was one of the best football players in history." → [0.15, 0.08, 0.92, 0.30]
候选2(科技):"Machine Learning affects all areas of life." → [0.78, 0.58, 0.18, 0.22]

计算显示源句与候选2的余弦相似度≈0.997,几乎重合;与候选1则远低于此。这就是搜索系统"秒懂"的数学真相。

代码落地:三行Python跑通生产环境

原文提供了可直接运行的实现,用的是Hugging Face的pipeline——这个选择本身就有产品考量。BART-base模型(facebook/bart-base)只有139M参数,单卡可跑,延迟够低,适合实时场景。

核心代码结构拆解:

第一步,加载特征提取管道:

「feature_extractor = pipeline("feature-extraction", model="facebook/bart-base")」

第二步,把变长句子压成固定向量。原文用了mean pooling(对token维度取平均),这是工业界最稳妥的基线方案。更复杂的做法有CLS token、加权平均,但mean pooling在大多数场景够用了。

第三步,PyTorch里一行cosine_similarity函数出结果。

整个流程的延迟瓶颈在模型前向传播,768维向量的相似度计算几乎可以忽略。这意味着:一旦预计算好文档库的所有向量,检索阶段就是纯矩阵运算,毫秒级响应。

这也是向量数据库(Pinecone、Milvus、Weaviate)这两年爆发的原因——它们把"预计算+近似最近邻搜索"的工程难题封装好了。

产品化陷阱:为什么你的相似度不准?

看完原理容易乐观,落地全是细节。原文没说的坑,我补三个实战观察:

第一,模型选择决定天花板。BART-base是通用模型,但垂直场景需要微调。法律合同相似度检测用通用模型会漏掉专业术语的微妙差异,必须拿领域语料继续训练。

第二,短文本是噩梦。"苹果"两个字, embedding可能落在水果和手机之间的模糊地带。解决方案是加上下文窗口,或者用句子级而非词级模型。

第三,相似度高≠相关。两句话都讨论"深度学习",一句讲医疗影像,一句讲自动驾驶,余弦相似度可能0.95,但对用户完全不是一回事。需要二次排序模型(cross-encoder)来做精排。

这些不是算法的缺陷,是产品定义的难题——"相似"本身就有歧义:语义相似?主题相似?意图相似?不同的定义需要不同的技术栈。

下一步:把这套机制塞进你的产品

如果你在做搜索、推荐、客服机器人,现在可以动手了:

• 先用Hugging Face的sentence-transformers库跑通baseline,all-MiniLM-L6-v2模型只有22M参数,效果够打80%场景
• 向量库选Milvus或Qdrant,开源、有云服务、文档全
• 延迟敏感就上ONNX Runtime或TensorRT,BERT类模型能压到10ms以内
• 有标注数据就用对比学习微调,没数据就用prompt工程硬撑

语义匹配已经从论文里的数学公式,变成了每个开发者触手可及的基础设施。剩下的问题只有一个:你的产品里,哪些"看不懂人话"的环节,值得被重新做一遍?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
查尔斯在美国国会说“基督教是精神支柱”,议员们全体鼓掌——但你真的听懂了吗?

查尔斯在美国国会说“基督教是精神支柱”,议员们全体鼓掌——但你真的听懂了吗?

守望的田野
2026-04-30 17:42:53
被福建舰吓坏了?美媒:中国新航母的排水量12万吨,舰载机105架

被福建舰吓坏了?美媒:中国新航母的排水量12万吨,舰载机105架

林子说事
2026-04-30 20:01:18
全场自发鼓掌3分钟,《寒战1994》爆了,近十年最佳犯罪动作片

全场自发鼓掌3分钟,《寒战1994》爆了,近十年最佳犯罪动作片

电影聚焦
2026-04-30 09:04:10
巴基斯坦外交部:巴方与伊美的外交接触仍在进行

巴基斯坦外交部:巴方与伊美的外交接触仍在进行

新华社
2026-05-01 10:20:32
国羽公布汤杯对阵大马名单!石宇奇复出,陈柏阳/刘毅出战

国羽公布汤杯对阵大马名单!石宇奇复出,陈柏阳/刘毅出战

小兰看体育
2026-05-01 10:51:26
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
这场中东冲突的最大意外:一直上蹿下跳的印度,已是彻底凉凉了

这场中东冲突的最大意外:一直上蹿下跳的印度,已是彻底凉凉了

流史岁月
2026-04-20 16:00:06
《寒战1994》第一波真实口碑出炉了!现场观众的评价“一针见血”

《寒战1994》第一波真实口碑出炉了!现场观众的评价“一针见血”

娱乐圈笔娱君
2026-04-30 14:26:44
炸了!美伊战火重开,美军航母突然遭袭!

炸了!美伊战火重开,美军航母突然遭袭!

大嘴说天下
2026-04-30 19:07:44
深圳这天,吴彦祖发福、周润发干瘪,郭富城穿10cm厚底鞋还矮半头

深圳这天,吴彦祖发福、周润发干瘪,郭富城穿10cm厚底鞋还矮半头

秋姐居
2026-04-27 19:35:02
外交部发布中方关于日本拥核问题的工作文件

外交部发布中方关于日本拥核问题的工作文件

澎湃新闻
2026-04-30 14:35:05
刺杀老蒋失败,杀手投奔延安,毛主席:你绝对不能留在这里

刺杀老蒋失败,杀手投奔延安,毛主席:你绝对不能留在这里

抽象派大师
2026-04-24 12:06:13
广东队能否赢广州?徐杰给出了一个肯定的答案!

广东队能否赢广州?徐杰给出了一个肯定的答案!

体育哲人
2026-05-01 10:33:30
中奖等于没戏?康师傅再来一瓶全国翻车,消费者的信任还能再续吗

中奖等于没戏?康师傅再来一瓶全国翻车,消费者的信任还能再续吗

刘哥谈体育
2026-04-30 16:16:45
名单调整!杜锋更换阵容,焦泊乔、陈家政获得出场机会

名单调整!杜锋更换阵容,焦泊乔、陈家政获得出场机会

野渡舟山人
2026-05-01 14:30:25
太震撼了!五一凌晨的泰山,大堂、走廊、台阶被游客挤得水泄不通

太震撼了!五一凌晨的泰山,大堂、走廊、台阶被游客挤得水泄不通

火山詩话
2026-05-01 10:33:48
“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

上观新闻
2026-05-01 13:21:07
果然拥抱人民币是个幌子,阿联酋要与美国一起掀起桌子了!

果然拥抱人民币是个幌子,阿联酋要与美国一起掀起桌子了!

瑛派儿老黄
2026-04-30 19:47:01
吉林农商银行回应千万存款流失:涉案员工被采取强制措施,被盗存款追查追缴

吉林农商银行回应千万存款流失:涉案员工被采取强制措施,被盗存款追查追缴

澎湃新闻
2026-05-01 11:09:05
2026-05-01 16:27:00
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
2014文章数 7关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

房产
健康
亲子
数码
军事航空

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

干细胞治烧烫伤面临这些“瓶颈”

亲子要闻

日本小儿子来家里了,喜娜酱直接扑进怀里,斩不断的血缘关系

数码要闻

出货大涨13.1%仍不够分!Q1 硅晶圆市场冰火两重天:AI 吃饱 手机 PC跌倒

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版