该工作基于相对表征,提出了一种低维稠密可解释的文本嵌入,以更少的维度、接近黑盒模型的性能提供了一定的可追溯性和可解释性,可为法律、医学或社会科学等涉及严格决策的领域提供透明的文本分析支持。
论文标题: LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations 论文链接: https://arxiv.org/abs/2505.10354 项目主页: https://vcc.tech/research/2025/LDIR一、引言
文本嵌入是自然语言处理的一种表征学习方法,该方法将文本数据转换为表征潜在语义的数字表示。文本嵌入在向量空间中编码了上下文的含义,其中相似的文本在表征空间中较近,在语义相似性、信息检索和检索增强生成等任务中发挥着至关重要的作用。现有的文本嵌入模型主要分为基于编码器的轻量级预训练模型(如SimCSE [1] 等)和基于解码器的大语言模型(如MetaEOL [2] 等),虽然在各个下游任务表现良好,但其文本嵌入通常具有768 到 4096 维,每个维度上的值难以跟踪与解释。最近的出现了基于大型语言模型生成可解释的文本嵌入,其中每个维度的值都限制为 “0/1”,对应着经精心设计的不同问题的 “是/否 ”答案。然而,由于其稀疏性,为了维持性能,通常需要维持较高维度(10K+),表征能力受限于0/1二值。
本次导读论文介绍了一种基于相对表征的低维、稠密且具有可解释性的文本嵌入方法。该方法需要先确定锚点文本,可由专家编写也可从所在领域文本库中采样,该方法为了体现泛用性,通过最远点采样在通用文本库上采集锚点文本。在文本嵌入向量上每个维度的值由分别与锚点文本计算相关度获得,由此文本嵌入向量的每一维度将被转化为表示该文本与锚点文本有多“相关”。该方法可以较自由地调整向量的维数,在语义表达性、表征效率和可解释性之间取得平衡。该方法在文本相似度、检索与聚类三个下游任务上,以500维的嵌入向量,实现了与黑盒嵌入向量相媲美的性能。
二、技术贡献
本工作主要贡献如下:
提出了一种低维稠密可解释的文本嵌入,系统地将相对表征应用于构建低维(<500 维)、稠密(浮点值)且具有可解释性的通用语义文本嵌入,其每个维度的值表示目标文本与一个锚点文本的语义相关性;
提出基于相关性分数的文本嵌入构建方法:利用现成的预训练文本编码器计算目标文本与每个锚文本的语义相关性分数,构建的文本嵌入天然具有可解释性。
本方法主要包括稠密嵌入计算和锚点文本采样,流程如下:
图1 方法流程图 锚点文本采样
锚点文本的质量将直接影响 LDIR 嵌入的表示能力和多样性。首先,使用一个预训练文本编码器(如 AngIE)将大规模语料库中的所有文本编码为N个嵌入向量 。 然后,应用最远点采样(FPS)算法从这些嵌入向量中选择一个大小为 n(n ,如 200 或 500)的子集 。 FPS 的核心是迭代地选择与当前已选点集距离最远的点,确保所选锚点嵌入在语义空间中尽可能分散。最后,对应于这些选定嵌入向量的原始文本即构成锚点文本集合 。 最远点采样在低维情况下能更好地覆盖语义空间边界,提供更具代表性的锚点文本。
稠密嵌入计算
采样得到 n 个具有代表性的锚点文本 , 对于每个锚点文本 , 计算其与目标文本 的语义相关度:
其中 表示计算锚点文本与目标文本的语义相关度分数,采用预训练文本编码器结合余弦相似度计算:
此处 为预训练文本编码器,如SimCSE、ModernBERT。计算得到 个相关度分数即构成了目标文本 的低维、稠密且可解释的文本嵌入,定义稠密可解释嵌入为:
其每个维度的值直接反映了 与对应锚点文本 的语义相关程度。由于基于浮点数构建,相比稀疏嵌入可有效降低对高维度的依赖。
四、部分结果展示
本文用于采样锚点文本的通用文本库为MEDI2 [3],在文本相似度、检索、聚类三类任务上进行测试,除了MS MARCO在BEIR [4]基准进行,其余均在MTEB [5]基准上进行测试。这些数据集来源多种多样,覆盖了新闻标题、金融问答、医学文献、论坛讨论等,能够反映文本嵌入方法在不同领域的泛用能力和文本表征能力。本文与多个黑盒方法和可解释方法进行定量对比,包括近年的可解释性文本嵌入方法QAEmb-MBQA [6]和CQG-MBQA [7]。不同方法的定量对比如表1、表2和表3所示,可以发现,本文方法显著优于最佳可解释基线,甚至超过了多个黑盒基线。
在语义相似度任务上使用了SemEval STS 2012-2016 (STS12-16),STS Benchmark (STS-B),SICK-Relatedness (SICK-R) 共七个数据集:
表1 不同嵌入方法在文本相似度上的定量对比
在检索任务上使用了MS MARCO 1%的测试样本,ArguAna,FiQA-2018 (FQA),NFCorpus (NFC),SCIDocs和SciFact共6个数据集:
表2 不同嵌入方法在文本检索上的定量对比
在聚类任务上使用了TwentyNewsgroups (TNG),StackExchange (SE-P2P),Biorxiv (BR P2P,BR-S2S),Medrxiv (MR-P2P,MR-S2S) 和Reddit (RD-P2P) 共七个数据集:
表3 不同嵌入方法在文本聚类上的定量对比
认知负荷 (Cognitive Load) 是衡量文本嵌入可解释性的指标,其核心思想是:其值越小,则理解一个文本嵌入表示所需关注的维度数量越少,更便于理解。如表 4 所示,本文在文本相似度上对比了二值化与非二值化的表现,表明理解 LDIR 表示所需的“认知负担”更低:
表4 不同嵌入方法在文本聚类上的可解释性定量对比
表5显示了来自科学论文的两个标题文本的四维LDIR嵌入案例。文本A与锚点文本#1的相关性最高,而文本B与锚点文本#3和#4的相关性更高,体现了其文本嵌入的差异:
表5 LDIR对A、B文本的嵌入可解释性效果(只展示了四维) 五、总结与展望
本文提出了 LDIR,一种基于相对表示的低维稠密可解释文本嵌入方法。LDIR 通过最远点采样自动获取代表性锚点文本,并利用预训练编码器计算目标文本与锚点文本的语义相关性分数来构建嵌入。该方法避免了生成和回答大量问题的开销,在显著降低维度(<500)的同时,实现了接近黑盒模型的性能,并显著优于现有的可解释嵌入基线。每个维度的值直接关联到一个锚点文本的语义相关性,提供了一定程度的可解释性。
未来工作可探索如何进一步提升 LDIR 的可解释性(如优化锚点文本选择或相关性计算方式),设计更适用于稠密可解释嵌入的评估指标,研究针对特定下游任务优化锚点文本,以及在实际应用场景(如可控文本生成)中验证其价值。
六、思考与讨论
Q: LDIR鲁棒性如何,异常数据是否会对整体性能产生显著影响?
A: 锚点文本来自MEDI2语料库,来源丰富,包含约七百万个文本。最远点采样保证了锚点文本的可区分性,并且实验中发现选取较长的锚点文本会导致性能下降,该方法更倾向于选取具有单一语义的锚点文本,相比于其他锚点文本更容易区分,从而保证文本嵌入每一维度具有单一的解释性与表征能力。
Q: LDIR能否面对大规模或动态变化的数据(在线数据流),锚点文本的选取是否会成为瓶颈?
A: 对于大规模数据,LDIR 允许预先选择锚点,这些锚点可以在后续任务中重复使用,仅需进行数次内积运算。面对在线数据,由于锚点文本采样相对高效,定期重新选择,或淘汰过时锚点文本,有助于保持模型与时俱进。
以下是开放性问题,欢迎读者朋友留言讨论:
Q: LDIR的核心思想是利用与锚文本的相对关系构建低维可解释嵌入,仍不够直观。这一范式能否迁移到跨模态场景(如图像-文本)?如何定义跨模态“相关度”?如何保证跨模态锚点的语义一致性和可解释性?
参考文献
[1] Tianyu Gao, Xingcheng Yao, Danqi Chen. SimCSE: simple contrastive learning of sentence embeddings. EMNLP. 6894-6910, 2021.
[2] Yibin Lei, Di Wu, Tianyi Zhou, Tao Shen, Yu Cao, Chongyang Tao, Andrew Yates. Meta-task prompting elicits embeddings from large language models. ACL. 10141-10157. 2024.
[3] Niklas Muennighoff, Hongjin SU, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela. Generative representational instruction tuning. ICLR. 2024.
[4] Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, Iryna Gurevych. BEIR: a heterogeneous benchmark for zero-shot evaluation of information retrieval models. NeurIPS (Datasets and Benchmarks Track (Round 2)). 2021.
[5] Niklas Muennighoff, Nouamane Tazi, Loic Magne, Nils Reimers. MTEB: massive text embedding benchmark. EACL. 2014-2037. 2023.
[6] Vinamra Benara, Chandan Singh, John Xavier Morris, Richard Antonello, Ion Stoica, Alexander Huth, Jianfeng Gao. Crafting interpretable embeddings for language neuroscience by asking LLMs questions. NeurIPS. 124137-124162, 2024.
[7] Yiqun Sun, Qiang Huang, Yixuan Tang, Anthony KumHoeTung, Jun Yu. A general framework for producing interpretable semantic text embeddings. ICLR. 2025.
作者:沈展宇 来源:公众号 【深圳大学可视计算研究中心】
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.