网易首页 > 网易号 > 正文 申请入驻

OpenAI把1个词切成512个数,搜索引擎彻底换了套理解方式

0
分享至

你搜"苹果"时,搜索引擎怎么知道你要的是手机还是水果?2023年之前,它主要靠猜。现在,它把"苹果"切成512个浮点数,每个数代表一个语义维度——颜色、价格、触感、品牌联想——然后算你和哪个"苹果"更亲近。

这套切法叫嵌入(embeddings),是大语言模型(LLM)的隐形基建。你每次用ChatGPT、语音助手或推荐算法,背后都有数百万次这样的"切分-比对"在发生。

从"死词典"到"活语境"

早期词向量模型像一本死词典。Word2Vec把"bank"永远钉死在同一个坐标,不管你说的是" riverbank"还是"bank account"。结果?"He went to the bank to deposit money"和"She sat by the riverbank"里的两个"bank",机器看来是一回事。

Transformer架构改变了游戏规则。GPT和BERT这类模型生成嵌入时,会重新计算每个词的位置——不是基于词典定义,而是基于整句话的上下文。同一个词,邻居不同,向量就变脸。

具体怎么切?模型先把句子拆成token(词片段),经过多层注意力机制,输出一串高维向量。OpenAI的text-embedding-ada-002把每个输入压缩成1536维,Anthropic的模型用1024维。这些数字本身人类看不懂,但机器能算"距离"——向量越近,语义越亲。

为什么现在才爆发?

嵌入不是新概念,2013年Word2Vec论文就火过。但当年向量只有300维,且一词一义。真正让嵌入从实验室走进你手机的,是2020年后三件事的叠加:

算力成本暴跌。生成一次嵌入的边际成本,从2017年的几美分降到2023年的百万分之一美元。这让"实时嵌入"成为可能——你刚发的推文,下一秒就能被推荐系统读懂。

上下文窗口暴涨。GPT-4一次能吞8K-32K token,整篇论文扔进去,输出的嵌入能捕捉"第三段反驳了第一段"这种长距离关系。早期模型?超过20个词就开始失忆。

多模态融合。2023年起,图像、音频也能被"嵌入"进同一套向量空间。CLIP模型把"一只猫"的文本描述和猫的照片,钉在几乎同一个坐标上。这是搜索引擎能"以图搜文"的底层原理。

谁在靠这个赚钱?

嵌入本身不卖钱,但围绕它的基础设施正在形成垄断。Pinecone、Weaviate这些向量数据库公司,2023年融资额合计超4亿美元。它们的生意很简单:帮企业存几十亿条嵌入,并在10毫秒内找出"最像"的那几条。

更隐蔽的战场在API定价。OpenAI的嵌入模型比GPT-4便宜99.6%——每百万token收费0.0001美元。策略很明显:用低价嵌入锁定开发者,再靠GPT-4的推理收费赚钱。嵌入是钩子,推理是鱼线。

国内厂商的跟进速度分化明显。百度文心一言2023年Q3开放嵌入API,字节豆包2024年初跟进,阿里通义千问直到2024年中才补齐。半年差距,在ToB市场意味着客户已经被Pinecone+OpenAI的组合洗过一轮。

还没解决的麻烦

嵌入有个反直觉的特性:维度越高,"语义相近"越难定义。1536维空间里,"苹果"手机和"苹果"水果的向量距离,可能和"苹果"与"梨"差不多——因为品牌联想、价格区间、购买场景这些维度在捣乱。

更头疼的是"幻觉"的迁移。LLM本身会编造,它生成的嵌入也会把"特朗普2024年当选"和"历史事实"钉得太近——如果训练数据里谣言足够多。2024年3月,某金融公司的客服机器人因此推荐了不存在的理财产品,被监管约谈。

向量数据库的厂商正在推"可解释嵌入"功能,让你能回溯"为什么这两句话被认为相似"。但本质上,这是用人类可读的标签,去猜测512个浮点数的集体意图——有点像给黑匣子贴便利贴。

你手机里的语音助手,现在能分清"帮我订银行附近的餐厅"和"帮我订河岸边的餐厅"了吗?试试把这句话念给它听——它的反应速度,比三年前快了多少毫秒?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出大事了,欧洲10国不再坐以待毙,打响反美第一枪,特朗普要慌了

出大事了,欧洲10国不再坐以待毙,打响反美第一枪,特朗普要慌了

流史岁月
2026-04-10 16:00:07
继续封锁海峡和推迟谈判:伊朗让特朗普更被动!我赞同博尔顿观点

继续封锁海峡和推迟谈判:伊朗让特朗普更被动!我赞同博尔顿观点

鹰眼Defence
2026-04-10 11:31:27
利好突袭!刚刚,集体大涨

利好突袭!刚刚,集体大涨

中国基金报
2026-04-10 12:32:47
郑丽文感慨:只要给和平足够时间,一切皆有可能

郑丽文感慨:只要给和平足够时间,一切皆有可能

上观新闻
2026-04-09 23:20:03
副教授贾浅浅又被扒了

副教授贾浅浅又被扒了

大张的自留地
2026-04-10 12:45:43
郭艾伦时隔近一年再向周深道歉:无意伤害任何人

郭艾伦时隔近一年再向周深道歉:无意伤害任何人

懂球帝
2026-04-07 23:14:17
郑丽文访陆第3天,韩国瑜不装了,侯友宜被怒怼,卢秀燕老奸巨猾

郑丽文访陆第3天,韩国瑜不装了,侯友宜被怒怼,卢秀燕老奸巨猾

书纪文谭
2026-04-10 13:41:16
南京这位叫唐承武的人,这两天火了

南京这位叫唐承武的人,这两天火了

健身狂人
2026-04-10 11:55:56
西蒙尼再次证明:他就是所有英超豪门都该抢的顶级主帅

西蒙尼再次证明:他就是所有英超豪门都该抢的顶级主帅

夜白侃球
2026-04-10 09:14:49
“16岁瘫痪女孩误买邓紫棋演唱会门票”,最新进展——

“16岁瘫痪女孩误买邓紫棋演唱会门票”,最新进展——

环球网资讯
2026-04-10 10:11:21
现役巨星50分次数:伦纳德仅1次,杜兰特9,库里15,仅一人破20

现役巨星50分次数:伦纳德仅1次,杜兰特9,库里15,仅一人破20

大西体育
2026-04-09 18:57:14
按工龄退休呼声高涨,让劳动者早卸重担,超3亿人支持按工龄退休

按工龄退休呼声高涨,让劳动者早卸重担,超3亿人支持按工龄退休

今朝牛马
2026-04-08 23:32:18
广东男篮欲签NBL盖帽王,广厦布朗将复出,阿不都沙拉木赛季报销

广东男篮欲签NBL盖帽王,广厦布朗将复出,阿不都沙拉木赛季报销

中国篮坛快讯
2026-04-10 15:16:22
网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

罗纳尔说个球
2026-04-08 23:08:09
“老舅妈”骆文莲:嫁头号粉丝,婚后不下厨,女儿是上海知名主持

“老舅妈”骆文莲:嫁头号粉丝,婚后不下厨,女儿是上海知名主持

往史过眼云烟
2026-04-09 22:20:56
张雪离开后,凯越机车的真实变化,让人觉得可惜

张雪离开后,凯越机车的真实变化,让人觉得可惜

刘哥谈体育
2026-04-10 02:52:23
马頔李纯装修吵到一半笑场?男方赶紧道歉,这是公费秀恩爱吧?

马頔李纯装修吵到一半笑场?男方赶紧道歉,这是公费秀恩爱吧?

新金牌娱乐观察家
2026-04-10 09:31:18
贾浅浅终于接受组织调查

贾浅浅终于接受组织调查

英军眼
2026-04-09 09:50:51
最初萧克拟授大将,后来被降衔,刘少奇为何反对萧克入围10大将?

最初萧克拟授大将,后来被降衔,刘少奇为何反对萧克入围10大将?

谈古论今历史有道
2026-04-10 10:50:03
全线拉升!中东大消息

全线拉升!中东大消息

中国基金报
2026-04-10 08:19:43
2026-04-10 16:43:01
灰度测试中
灰度测试中
生活正在重构,目前还在灰度测试阶段,暂不全量发布。
1081文章数 14关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

外媒:美伊战争很可能再次爆发 且规模可能比此前更大

头条要闻

外媒:美伊战争很可能再次爆发 且规模可能比此前更大

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
游戏
教育
亲子
手机

艺术要闻

于小冬2026年4月油画新作《花季》

GTA"点子王"锐评GTA6:延期可以接受100美元绝对不行

教育要闻

“占穷人便宜,就这下场”,抠搜家长怒斥:这种小孩以后别来我家

亲子要闻

孕妇小孩如何做好防护?

手机要闻

苹果撤回国行AI?我们找到强启方法,但实测后发现太鸡肋

无障碍浏览 进入关怀版