网易首页 > 网易号 > 正文 申请入驻

「AI之美」系列三:智能语义搜索

0
分享至

本文作者:姜庭欣 合享汇智信息科技集团有限公司 CTO

一、 为什么需要智能语义搜索

在数以亿计的数据中,找到自己想要的数据并不是一件很容易的事,尤其当用户不能很清楚的表达自己的需求时,任务会变得更加困难。在原始的文字搜索中,用户输入“电脑”一词,系统直接通过文字匹配的方式,找到含有“电脑”这个词的数据即可。但用户真实需求可能是想找“电脑”这个领域的数据,至于是否包含这个词并不重要。这就需要所谓的“智能语义搜索”,他需要要突破文字匹配的限制,达到语义匹配的效果。

二、 智能语义搜索的实现原理

在实际应用中,对数据(可以是文本、图片、视频等形式,本文以文本举例)的计算种类繁多,经典且直观的数据表示方式是向量形式,即将数据用向量表示,作为后续处理的输入。

a) 两种常见的向量表示方式

最直观的向量表示方式是词向量,即将文本表示成由词组成的向量。例如“人工智能技术”,根据中文分词结果,将这段文本表示成向量

V = {人工,智能,技术}。

此种方法优势和不足都很明显。优势是简单、直观、易用,只要将文章进行分词,即可得到向量。词向量是无处不在的,它是内容表示的基础数学模型,可以说是整个处理流程的第一步。

词向量的应用场景如下:当我们希望从海量文章中搜索想要的信息时,首先可以用将每篇文章都表示成词向量,建立词-文档矩阵,如图1所示。

图1 词向量的应用场景

每一列是一篇文档,每一行是一个词。词汇1被文档1和文档4包含,就构成了倒排索引。当搜索词汇1时,可以直接获得文档1和文档4作为搜索结果。原始的文字匹配搜索就是基于词向量的倒排形式实现的。

词向量的不足之处是缺少信息的深加工,在处理复杂逻辑时,如果把词向量作为输入参数传入下游模块,则对下游模块的处理能力和效果提出了更高要求,因为其信息含量太少。其次,在处理海量信息时,每一个词向量都会很长,处理的信息量大,性能本身是一个挑战。

incoPat全球科技分析运营平台全面整理并汉化112个国家、组织和地区自1782年以来的1.2亿项专利技术,完成全球专利数据48小时更新,并将每项技术细化成240个字段,再加上pdf、图片等数据,各种数据汇总起来已经超过PB量级。合享将如此海量的数据做加工处理,并提供给用户做各种检索分析服务,其基础数学模型也是词向量模型。在检索的性能、处理的数据量级、基础运算符的准确度上,相对竞品都具备明显的优势。

另一种向量形式以topic model为代表,以奇异值分解(Singular Value Decomposition,SVD)举例,主要思想如下:

假设文章集合S中包含m篇文章,n个词,表示成矩阵A,m行n列,每一行代表一篇文章,每一列代表一个词。如果第i篇文章包含第j个词,则A[i][j]=1,否则A[i][j]=0。

SVD分解,就是要把A分解成3个矩阵的乘机,首先取一个远小于m和n的数r,对A的奇异值数组进行降序排列,取前r个值来近似描述矩阵,得到分解式:

虽然不是完全的精确解,但可以取得一个足够好的结果来满足实际场景要求。SVD分解的数学过程不是本文重点,不再赘述。

矩阵U,m行r列,我们可以认为每一行代表一篇文章。矩阵V,r行n列,我们可以认为每一列代表一个词。这样就实现了一个转换:每篇文章从词向量转换成由r个浮点数组成的向量,每个词从字符串转换成由r个浮点数组成的向量。r的取值范围根据实际场景,可以从几十到几千甚至更大,取值越小,矩阵分解速度越快,但得到的向量的维数越小,取值越大,矩阵分解速度越慢,向量维数越大。

SVD在实际应用中使用广泛,最直接的应用就是计算任意两篇文章的相似度,任意两个词之间的相似度。

文章i与文章j的相似度等于向量U[i]与向量U[j]的夹角余弦值。

词i与词j的相似度等于向量V[i]与向量V[j]的夹角余弦值。

SVD的应用非常广泛,也取得了非常不错的效果,例如有很多商业公司的所谓智能语义检索系统,就是基于这种模型实现的。用户输入的信息被转成一个r维向量,在与系统中的每一个文章向量计算相似度,得到相似度最高的前n篇文章,作为检索结果。

将上一个场景中的词向量方法,换成SVD方法如下:

这样就将每篇文章表示成一个向量,每一个词表示成一个向量。

虽然SVD的效果在交互层面经常给人以惊喜,但主要问题之一是不可解释,它将每篇文章表示成一个数学向量,里边都是0.1、0.2、-0.5之类的数字,虽然从数学过程上可以认为这些数字都有意义,向量的夹角也可以定义成向量的相似度,但在实际应用场景中,无法说出这些数字到底代表什么,这堆数字跟这篇文章到底有什么关系,按此计算的相似度有多大可信性。

除了SVD,主要的topic model模型还有PLSI、LDA、word2vec等,以及它们的各种变体。随着深度学习的兴起,rnn、lstm等神经网络模型也是可以用于语义搜索的。虽然各方法逻辑与计算过程不同,但其结果都是将一篇文章或词表示成数学向量,再将文本之间的计算转换成向量之间的计算,得到看似智能的效果。

三、 Topic model的效果及瓶颈

在实际应用场景中,用户有时需要精确的匹配,有时需要扩展的匹配。词向量模型可以实现词到词的精确匹配,即“电脑”和“电脑”匹配,“电脑”和“硬盘”是无法匹配的。

Topic model利用数学向量,可以实现扩展的匹配,即计算“电脑”和“硬盘”的相似度。因为每一个词都有一个向量,向量之间能做各种计算,比如夹角余弦、欧式距离等等。但这样也带来准确度的下降。此方法本质是在精确匹配的基础上向外扩展,希望找到更多的结果,且这些结果又不偏离当前主题。但此方法的主要问题是扩展到什么程度自己并不能控制,往往需要对结果做很多人工的修正。如何平衡两者之间的关系,是这条技术路线的主要问题。

在提到智能检索、语义检索时,经常给人以某些神秘感,但在明白了原理之后,其实它并不神秘,凡是基于这条技术路线实现的语义智能检索系统基本理念差别不大,但各公司都会根据自己的业务特点做各自的优化。总体来讲,各有所长,各有千秋。

incoPat在上线之初就具备了语义检索的能力,并不断的发展完善,但incoPat并不满足于现状,正致力于更具前瞻性的意向性研究,且已经取得了突破性的进展。

图2 incoPat语义检索系统

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连院子里的树都被贴了封条,山东临沂纳税状元变“黑老大”

连院子里的树都被贴了封条,山东临沂纳税状元变“黑老大”

有戏
2026-04-16 18:23:20
福建永安保安扇女车主耳光事件最新:警方认定来了,全网热议

福建永安保安扇女车主耳光事件最新:警方认定来了,全网热议

老猫观点
2026-04-25 07:31:06
台湾最新民调出炉,蒋万安、郑丽文支持率惊人,民众党大将已表态

台湾最新民调出炉,蒋万安、郑丽文支持率惊人,民众党大将已表态

碧海孤航
2026-04-25 19:25:30
穆杰塔巴隐身46天,不来中俄,自有妙计!美以放风,伊朗将计就计

穆杰塔巴隐身46天,不来中俄,自有妙计!美以放风,伊朗将计就计

报君知史
2026-04-26 07:30:44
消息人士:伊朗外长离开巴基斯坦

消息人士:伊朗外长离开巴基斯坦

新华社
2026-04-25 22:35:09
卡洛斯·布泽尔之子卡梅隆·布泽尔宣布参加2026年NBA选秀

卡洛斯·布泽尔之子卡梅隆·布泽尔宣布参加2026年NBA选秀

北青网-北京青年报
2026-04-25 14:13:07
下一个 B 费?曼联锁定“德容+佩德里结合体”,转会费或破纪录

下一个 B 费?曼联锁定“德容+佩德里结合体”,转会费或破纪录

澜归序
2026-04-26 06:26:48
退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

混沌录
2026-04-22 19:51:07
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
晚间外盘三大利好出炉!下周A股大方向彻底明朗

晚间外盘三大利好出炉!下周A股大方向彻底明朗

风风顺
2026-04-26 01:40:03
3大生死劫:民营企业家为何是最难、最焦虑的群体?反问:你能扛住哪一关?

3大生死劫:民营企业家为何是最难、最焦虑的群体?反问:你能扛住哪一关?

苏格拉高
2026-04-26 07:39:57
为啥想找到心仪的工作那么难?网友:船厂电焊一万多,大把缺人

为啥想找到心仪的工作那么难?网友:船厂电焊一万多,大把缺人

带你感受人间冷暖
2026-04-06 00:10:04
斯诺克世锦赛:赵心童9-7丁俊晖,威尔逊9-13爆大冷,奥沙利文6-2

斯诺克世锦赛:赵心童9-7丁俊晖,威尔逊9-13爆大冷,奥沙利文6-2

体育就你秀
2026-04-26 08:04:35
2026 年机关事业单位改革后,公务员和事业编的差距更大了

2026 年机关事业单位改革后,公务员和事业编的差距更大了

细说职场
2026-04-25 13:26:51
随着日本劲旅0-1,亚冠精英赛冠军出炉:C罗争冠劲敌成功卫冕

随着日本劲旅0-1,亚冠精英赛冠军出炉:C罗争冠劲敌成功卫冕

侧身凌空斩
2026-04-26 02:55:58
一场105-113的完败,让活塞伪强队实锤,魔术信心大增,骑士失算

一场105-113的完败,让活塞伪强队实锤,魔术信心大增,骑士失算

毒舌NBA
2026-04-26 06:24:40
1978年,邱清泉之子邱国渭,以蚂蚁搬家方式将全家送往美国

1978年,邱清泉之子邱国渭,以蚂蚁搬家方式将全家送往美国

老谢谈史
2026-03-20 10:24:19
事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

浪子阿邴聊体育
2026-04-25 05:40:45
商务部新闻发言人就欧盟第20轮对俄制裁列单中国企业答记者问

商务部新闻发言人就欧盟第20轮对俄制裁列单中国企业答记者问

界面新闻
2026-04-25 19:51:38
开了一年的Model Y,我把账单摊桌上,发现“省钱”这事水太深了!

开了一年的Model Y,我把账单摊桌上,发现“省钱”这事水太深了!

小李子体育
2026-04-20 18:05:08
2026-04-26 09:11:00
怜阳娱乐
怜阳娱乐
娱乐交流
58文章数 2关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

2万海员在霍尔木兹海峡成"活靶子":或随时被炸成灰烬

头条要闻

2万海员在霍尔木兹海峡成"活靶子":或随时被炸成灰烬

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

教育
艺术
游戏
亲子
军事航空

教育要闻

学校管理:“管”出规范,“理”出活力

艺术要闻

毛泽东写小字,太潇洒了

索尼新规主机断网不让玩:内部人士回应了!

亲子要闻

总感觉她们两是上辈子的情人!

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版