网易首页 > 网易号 > 正文 申请入驻

「AI之美」系列三:智能语义搜索

0
分享至

本文作者:姜庭欣 合享汇智信息科技集团有限公司 CTO

一、 为什么需要智能语义搜索

在数以亿计的数据中,找到自己想要的数据并不是一件很容易的事,尤其当用户不能很清楚的表达自己的需求时,任务会变得更加困难。在原始的文字搜索中,用户输入“电脑”一词,系统直接通过文字匹配的方式,找到含有“电脑”这个词的数据即可。但用户真实需求可能是想找“电脑”这个领域的数据,至于是否包含这个词并不重要。这就需要所谓的“智能语义搜索”,他需要要突破文字匹配的限制,达到语义匹配的效果。

二、 智能语义搜索的实现原理

在实际应用中,对数据(可以是文本、图片、视频等形式,本文以文本举例)的计算种类繁多,经典且直观的数据表示方式是向量形式,即将数据用向量表示,作为后续处理的输入。

a) 两种常见的向量表示方式

最直观的向量表示方式是词向量,即将文本表示成由词组成的向量。例如“人工智能技术”,根据中文分词结果,将这段文本表示成向量

V = {人工,智能,技术}。

此种方法优势和不足都很明显。优势是简单、直观、易用,只要将文章进行分词,即可得到向量。词向量是无处不在的,它是内容表示的基础数学模型,可以说是整个处理流程的第一步。

词向量的应用场景如下:当我们希望从海量文章中搜索想要的信息时,首先可以用将每篇文章都表示成词向量,建立词-文档矩阵,如图1所示。

图1 词向量的应用场景

每一列是一篇文档,每一行是一个词。词汇1被文档1和文档4包含,就构成了倒排索引。当搜索词汇1时,可以直接获得文档1和文档4作为搜索结果。原始的文字匹配搜索就是基于词向量的倒排形式实现的。

词向量的不足之处是缺少信息的深加工,在处理复杂逻辑时,如果把词向量作为输入参数传入下游模块,则对下游模块的处理能力和效果提出了更高要求,因为其信息含量太少。其次,在处理海量信息时,每一个词向量都会很长,处理的信息量大,性能本身是一个挑战。

incoPat全球科技分析运营平台全面整理并汉化112个国家、组织和地区自1782年以来的1.2亿项专利技术,完成全球专利数据48小时更新,并将每项技术细化成240个字段,再加上pdf、图片等数据,各种数据汇总起来已经超过PB量级。合享将如此海量的数据做加工处理,并提供给用户做各种检索分析服务,其基础数学模型也是词向量模型。在检索的性能、处理的数据量级、基础运算符的准确度上,相对竞品都具备明显的优势。

另一种向量形式以topic model为代表,以奇异值分解(Singular Value Decomposition,SVD)举例,主要思想如下:

假设文章集合S中包含m篇文章,n个词,表示成矩阵A,m行n列,每一行代表一篇文章,每一列代表一个词。如果第i篇文章包含第j个词,则A[i][j]=1,否则A[i][j]=0。

SVD分解,就是要把A分解成3个矩阵的乘机,首先取一个远小于m和n的数r,对A的奇异值数组进行降序排列,取前r个值来近似描述矩阵,得到分解式:

虽然不是完全的精确解,但可以取得一个足够好的结果来满足实际场景要求。SVD分解的数学过程不是本文重点,不再赘述。

矩阵U,m行r列,我们可以认为每一行代表一篇文章。矩阵V,r行n列,我们可以认为每一列代表一个词。这样就实现了一个转换:每篇文章从词向量转换成由r个浮点数组成的向量,每个词从字符串转换成由r个浮点数组成的向量。r的取值范围根据实际场景,可以从几十到几千甚至更大,取值越小,矩阵分解速度越快,但得到的向量的维数越小,取值越大,矩阵分解速度越慢,向量维数越大。

SVD在实际应用中使用广泛,最直接的应用就是计算任意两篇文章的相似度,任意两个词之间的相似度。

文章i与文章j的相似度等于向量U[i]与向量U[j]的夹角余弦值。

词i与词j的相似度等于向量V[i]与向量V[j]的夹角余弦值。

SVD的应用非常广泛,也取得了非常不错的效果,例如有很多商业公司的所谓智能语义检索系统,就是基于这种模型实现的。用户输入的信息被转成一个r维向量,在与系统中的每一个文章向量计算相似度,得到相似度最高的前n篇文章,作为检索结果。

将上一个场景中的词向量方法,换成SVD方法如下:

这样就将每篇文章表示成一个向量,每一个词表示成一个向量。

虽然SVD的效果在交互层面经常给人以惊喜,但主要问题之一是不可解释,它将每篇文章表示成一个数学向量,里边都是0.1、0.2、-0.5之类的数字,虽然从数学过程上可以认为这些数字都有意义,向量的夹角也可以定义成向量的相似度,但在实际应用场景中,无法说出这些数字到底代表什么,这堆数字跟这篇文章到底有什么关系,按此计算的相似度有多大可信性。

除了SVD,主要的topic model模型还有PLSI、LDA、word2vec等,以及它们的各种变体。随着深度学习的兴起,rnn、lstm等神经网络模型也是可以用于语义搜索的。虽然各方法逻辑与计算过程不同,但其结果都是将一篇文章或词表示成数学向量,再将文本之间的计算转换成向量之间的计算,得到看似智能的效果。

三、 Topic model的效果及瓶颈

在实际应用场景中,用户有时需要精确的匹配,有时需要扩展的匹配。词向量模型可以实现词到词的精确匹配,即“电脑”和“电脑”匹配,“电脑”和“硬盘”是无法匹配的。

Topic model利用数学向量,可以实现扩展的匹配,即计算“电脑”和“硬盘”的相似度。因为每一个词都有一个向量,向量之间能做各种计算,比如夹角余弦、欧式距离等等。但这样也带来准确度的下降。此方法本质是在精确匹配的基础上向外扩展,希望找到更多的结果,且这些结果又不偏离当前主题。但此方法的主要问题是扩展到什么程度自己并不能控制,往往需要对结果做很多人工的修正。如何平衡两者之间的关系,是这条技术路线的主要问题。

在提到智能检索、语义检索时,经常给人以某些神秘感,但在明白了原理之后,其实它并不神秘,凡是基于这条技术路线实现的语义智能检索系统基本理念差别不大,但各公司都会根据自己的业务特点做各自的优化。总体来讲,各有所长,各有千秋。

incoPat在上线之初就具备了语义检索的能力,并不断的发展完善,但incoPat并不满足于现状,正致力于更具前瞻性的意向性研究,且已经取得了突破性的进展。

图2 incoPat语义检索系统

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明日除夕是“凶日”,今年除夕牢记3个忌讳:1不拜、2不空、3不贴

明日除夕是“凶日”,今年除夕牢记3个忌讳:1不拜、2不空、3不贴

白浅娱乐聊
2026-02-15 09:41:06
中戏主任被抓扯出“太子爷”塌房?易烊千玺背后大佬捂不住了!

中戏主任被抓扯出“太子爷”塌房?易烊千玺背后大佬捂不住了!

毒舌八卦
2026-02-15 00:41:43
湘潭钢铁爆炸大火持续12小时:画面流出,伤亡情况披露,原因曝光

湘潭钢铁爆炸大火持续12小时:画面流出,伤亡情况披露,原因曝光

博士观察
2026-02-15 11:07:28
中石油下属单位员工自曝去年收入,震惊了!

中石油下属单位员工自曝去年收入,震惊了!

微微热评
2026-02-15 01:51:24
坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

涵豆说娱
2026-01-19 17:21:55
带娃上班被停职,我把娃扔董事长桌上:你孙子我不要了!

带娃上班被停职,我把娃扔董事长桌上:你孙子我不要了!

极品小牛肉
2026-01-21 09:48:29
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
春节需求激增!95后女生9天接了100多单,最多一天有22单,能赚8500元

春节需求激增!95后女生9天接了100多单,最多一天有22单,能赚8500元

中国品牌
2026-02-14 18:14:38
冯小刚一家合体拍杂志气氛尴尬,他全程对徐帆没好脸,两人疑分居

冯小刚一家合体拍杂志气氛尴尬,他全程对徐帆没好脸,两人疑分居

一娱三分地
2026-02-14 18:15:35
沈阳一温泉酒店推暴风雨主题SPA,浴池内“电闪雷鸣、风雨交加”堪比“渡劫”,工作人员:刚开业5天,是东北首家,水深只到膝盖处

沈阳一温泉酒店推暴风雨主题SPA,浴池内“电闪雷鸣、风雨交加”堪比“渡劫”,工作人员:刚开业5天,是东北首家,水深只到膝盖处

极目新闻
2026-02-15 11:48:25
2位中国选手4年白费了!短道速滑规则遭批:为啥要为对手错误买单

2位中国选手4年白费了!短道速滑规则遭批:为啥要为对手错误买单

风过乡
2026-02-15 07:30:26
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
黑店就是黑店!7200万卖出了塞梅尼奥,伯恩茅斯推出19岁接班人

黑店就是黑店!7200万卖出了塞梅尼奥,伯恩茅斯推出19岁接班人

里芃芃体育
2026-02-15 05:00:06
74岁大爷:每月6500都给你花,但你要答应我一个要求 大妈:满足你

74岁大爷:每月6500都给你花,但你要答应我一个要求 大妈:满足你

人间百态大全
2026-02-15 06:40:03
超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

爆角追踪
2026-02-14 22:27:44
8499元!iPhone 17 Pro Max 突然官宣:2月15日,正式官降

8499元!iPhone 17 Pro Max 突然官宣:2月15日,正式官降

科技堡垒
2026-02-15 11:19:04
颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

医诺维
2026-02-14 16:34:57
中央戏剧学院表演系主任王鑫的权多大?震碎三观

中央戏剧学院表演系主任王鑫的权多大?震碎三观

雪中风车
2026-02-15 10:46:55
三胎实锤!戚薇直播全程用抱枕遮肚疯狂吃酸,被爆怀孕已有5个月

三胎实锤!戚薇直播全程用抱枕遮肚疯狂吃酸,被爆怀孕已有5个月

八卦王者
2026-02-15 10:53:34
7-2惨案!39岁胡尔克暴力35米下坠任意球:30分钟3球 大腿粗得吓人

7-2惨案!39岁胡尔克暴力35米下坠任意球:30分钟3球 大腿粗得吓人

风过乡
2026-02-15 09:20:11
2026-02-15 13:36:49
怜阳娱乐
怜阳娱乐
娱乐交流
58文章数 2关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

男子卖房前一夜被买家再砍40万 使出一招后买家傻眼了

头条要闻

男子卖房前一夜被买家再砍40万 使出一招后买家傻眼了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

本地
手机
时尚
数码
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

手机要闻

华为HarmonyOS 6(基于API 23)开发者版本Beta定向招募开启

推广中奖名单-更新至2026年2月3日推广

数码要闻

AirTag太贵?小米Tag来了:更薄更强,还支持苹果查找

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版