你搜"苹果"时,搜索引擎怎么知道你要的是手机还是水果?2023年之前,它主要靠猜。现在,它把"苹果"切成512个浮点数,每个数代表一个语义维度——颜色、价格、触感、品牌联想——然后算你和哪个"苹果"更亲近。
这套切法叫嵌入(embeddings),是大语言模型(LLM)的隐形基建。你每次用ChatGPT、语音助手或推荐算法,背后都有数百万次这样的"切分-比对"在发生。
从"死词典"到"活语境"
早期词向量模型像一本死词典。Word2Vec把"bank"永远钉死在同一个坐标,不管你说的是" riverbank"还是"bank account"。结果?"He went to the bank to deposit money"和"She sat by the riverbank"里的两个"bank",机器看来是一回事。
Transformer架构改变了游戏规则。GPT和BERT这类模型生成嵌入时,会重新计算每个词的位置——不是基于词典定义,而是基于整句话的上下文。同一个词,邻居不同,向量就变脸。
具体怎么切?模型先把句子拆成token(词片段),经过多层注意力机制,输出一串高维向量。OpenAI的text-embedding-ada-002把每个输入压缩成1536维,Anthropic的模型用1024维。这些数字本身人类看不懂,但机器能算"距离"——向量越近,语义越亲。
为什么现在才爆发?
嵌入不是新概念,2013年Word2Vec论文就火过。但当年向量只有300维,且一词一义。真正让嵌入从实验室走进你手机的,是2020年后三件事的叠加:
算力成本暴跌。生成一次嵌入的边际成本,从2017年的几美分降到2023年的百万分之一美元。这让"实时嵌入"成为可能——你刚发的推文,下一秒就能被推荐系统读懂。
上下文窗口暴涨。GPT-4一次能吞8K-32K token,整篇论文扔进去,输出的嵌入能捕捉"第三段反驳了第一段"这种长距离关系。早期模型?超过20个词就开始失忆。
多模态融合。2023年起,图像、音频也能被"嵌入"进同一套向量空间。CLIP模型把"一只猫"的文本描述和猫的照片,钉在几乎同一个坐标上。这是搜索引擎能"以图搜文"的底层原理。
谁在靠这个赚钱?
嵌入本身不卖钱,但围绕它的基础设施正在形成垄断。Pinecone、Weaviate这些向量数据库公司,2023年融资额合计超4亿美元。它们的生意很简单:帮企业存几十亿条嵌入,并在10毫秒内找出"最像"的那几条。
更隐蔽的战场在API定价。OpenAI的嵌入模型比GPT-4便宜99.6%——每百万token收费0.0001美元。策略很明显:用低价嵌入锁定开发者,再靠GPT-4的推理收费赚钱。嵌入是钩子,推理是鱼线。
国内厂商的跟进速度分化明显。百度文心一言2023年Q3开放嵌入API,字节豆包2024年初跟进,阿里通义千问直到2024年中才补齐。半年差距,在ToB市场意味着客户已经被Pinecone+OpenAI的组合洗过一轮。
还没解决的麻烦
嵌入有个反直觉的特性:维度越高,"语义相近"越难定义。1536维空间里,"苹果"手机和"苹果"水果的向量距离,可能和"苹果"与"梨"差不多——因为品牌联想、价格区间、购买场景这些维度在捣乱。
更头疼的是"幻觉"的迁移。LLM本身会编造,它生成的嵌入也会把"特朗普2024年当选"和"历史事实"钉得太近——如果训练数据里谣言足够多。2024年3月,某金融公司的客服机器人因此推荐了不存在的理财产品,被监管约谈。
向量数据库的厂商正在推"可解释嵌入"功能,让你能回溯"为什么这两句话被认为相似"。但本质上,这是用人类可读的标签,去猜测512个浮点数的集体意图——有点像给黑匣子贴便利贴。
你手机里的语音助手,现在能分清"帮我订银行附近的餐厅"和"帮我订河岸边的餐厅"了吗?试试把这句话念给它听——它的反应速度,比三年前快了多少毫秒?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.