KaLM-Embedding-V2重塑高质量文本嵌入格局|聚类|新模型|embedding

KaLM-Embedding-V2重塑高质量文本嵌入格局

分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel推出邀请注册奖励活动，最高可得算力券+token包380元奖励，欢迎参与和支持！

大模型驱动的语义表示时代，文本嵌入模型（Text Embedding Models）已成为检索、STS、分类、排序等各类NLP下游任务的核心基石。然而，主流嵌入模型普遍依赖大规模数据或合成数据，很少系统性探索训练技巧与数据质量的协同优化。

结果就是，并且由于模型体积庞大，部署成本高昂，其泛化能力和可复现性不太理想。

此外，多数业界领先的嵌入模型来源于头部公司，其专有数据、封闭代码和商业限制为学术界和开发者社区带来了巨大的挑战，使得高效、可复现的研究难以进行。

为此，KaLM-Embedding团队推出了KaLM-Embedding-V2系列模型，一个以高质量数据+精湛训练技巧为核心打造的紧凑通用嵌入解决方案。它不仅性能强悍，更以0.5B参数的“小体型”挑战甚至超越多个7B~9B级模型！与同参数量规模的Qwen3-Embedding-0.6B以及bge-m3相比，KaLM-Embedding-V2系列展现出来显著的性能优势。

最重要的是，KaLM-Embedding不仅仅是一系列单点模型，而是一个面向学术界的全面开源贡献：

完整的数据配方和全开源的数据：让研究者能直接从training-ready的数据集着手；
卓越的训练技术：让研究者快速构建媲美工业级的检索器模型。
开放的商业授权：明确开放模型的商用权限，旨在推动RAG基础设施的普及；
完整的训练与推理代码：降低复现与扩展的门槛，以及下游任务适配难度；

KaLM-Embedding团队望借此推动通用文本嵌入技术的开放：让任何研究者、开发者乃至企业团队，都能自由使用、改进与扩展这一嵌入框架；让高质量的语义理解能力不再只属于超大规模模型与封闭系统，而能通过开放数据与透明训练，被更广泛地共享、验证与创新。模型已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/YanshekWoo/KaLM-embedding-multilingual-mini-instruct-v2.5

01.

模型方法

全双向表征学习

KaLM-Embedding-V2系列采样Qwen2-0.5B作为模型主干，但在架构上进行了关键性改造。LLMs天生具有因果注意力掩码，这限制了嵌入模型在进行表征学习时对全局上下文的捕捉。KaLM-Embedding-V2除了这一掩码，实现了完全双向的注意力机制，让模型能够更全面、更精确地捕捉文本的深层语义，为高性能嵌入打下坚实基础。模型仅0.5B参数，却在语义嵌入质量上媲美甚至超越3–26x大的模型。

精湛训练技巧

为解决嵌入模型训练中存在的若干问题，包括优化方向易被简单样本主导、难负样本信息量随训练衰减、hard标签信号过于粗粒度。研究团队系统性地设计了一系列训练优化技术，它们是KaLM-Embedding-V2性能腾飞的关键：

焦点式重加权机制：借鉴Focal Loss的精髓，持续聚焦于那些“困难”和“易错”的难样本，从训练原理上保证了模型的边界判别能力能够对标工业级检索器的要求。

在线困难负样本混合：针对离线挖掘的难负样本随着训练进行提供的信息量不足的问题，模型在训练过程中动态混合现有难负样本的特征，在极低计算成本下，实时合成信息量更多、难度更高的难负样本。

对比蒸馏：从更强的教师模型中学习“细粒度语义差异”，实现语义区分力的飞跃。这使得模型实现了从“粗语义理解”到“精语义对齐”的质变。

套娃式嵌入：对比学习和对比蒸馏训练目标引入套娃表示学习，实现更鲁棒的多维灵活嵌入，低维度依然稳健的高性能。

高质量数据为王

“好模型，离不开好数据”。KaLM-Embedding 团队建立了一个系统化的高质量训练数据构建体系。预训练覆盖 20+类弱监督语料（约470M样本），精调与蒸馏阶段覆盖100+类高质量监督数据（约6M样本）。数据覆盖多语言，多领域，多任务，长短文本。主要来源于公开数据集。引入任务指令、难负例挖掘、基于样例的多类别标注样本、Persona数据生成等策略，极大丰富任务多样性和数据的质量：

任务指令：在输入到模型进行编码之前，会将特定的任务指令（task instruction）前置于查询文本（query）之前。

难负例挖掘：在对比学习中，模型的目标是最大化查询与其正样本之间的相似度，同时最小化与负样本，尤其是难以区分的负样本之间的相似度。难负例挖掘用于提供具有挑战性的训练样本，以增强模型细粒度的区分能力。实现方式包括离线挖掘以及本工作提出的在线困难负样本混合。

基于样例的多类别标注样本：针对分类和聚类数据集，构建基于样例的双端分类样本；对同类别聚类的样本视作正样本，将其他类别或聚类里面的样本是做负样本。

Persona数据生成：通过引入具有不同角色（Persona）设定的合成数据，进一步增强训练数据的多样性，并扩大模型的领域覆盖范围。

Spark-Chemistry-X1-13B能够助力化学相关科研工作的高效推进与深远探索，使得开发者能够高效便捷搭建化学性质预测、化学知识检索问答等相关应用，同时也激发了更多跨领域创新可能，例如计算机科学与化学、生物学与化学等。

02.

实验性能表现

主要结果

在MTEB英文和中文benchmark上，KaLM-Embedding-V2系列取得了双料冠军（< 1B parameters）；对比更大的嵌入模型，比如bge-multilingual-gemma2，在参数量仅有1/18的情况下，KaLM-Embedding-V2性能表现也丝毫不逊色。在具体子任务上，KaLM-Embedding-V2.5在10/13 cases中，取得了最优或次优的表现。

值得一提的是KaLM-Embedding-V2系列微调数据量仅6M，同时仅使用2-4 GPUs，Qwen3-Embedding-0.6B则使用了19M的微调数据量，充分说明精湛的训练技术和卓越的数据工程的有效性。

OOD评估

为评估模型在真实工业场景下的鲁棒性与泛化能力，我们在两个中文域外检索任务中进行测试：客服FAQ检索与游戏文档搜索。所有数据均来自真实用户，且未用于模型训练。结果显示，KaLM-Embedding-V2.5在相似规模下取得SOTA性能，并在仅为Qwen3-Embedding-8B 参数量约1/15的情况下，在8/12项上表现更优，体现出了强大的泛化与鲁棒性。

可视化分析

为分析嵌入质量与下游任务性能的关系，我们在多种中英文聚类与分类数据上进行可视化。结果显示，KaLM-Embedding-V2.5的嵌入分布更紧凑、类别更分离，相比V1和Qwen3-Embedding-0.6B，能更好区分细粒度语义。在RedditClustering和CLSClusteringP2P等任务中，V2.5的语义聚类更清晰，进一步验证了其优越的语义表示能力。

KaLM-Embedding-V2系列由KaLM-Embedding团队联合推出，通过高质量数据与精湛训练技巧，在仅0.5B参数下实现跨语言、多任务SOTA表现，性能媲美3-26x大的模型；其全开源、可商用、可复现的设计，旨在推动通用文本嵌入的开放，打造高效、透明、可持续的语义表示。

----- END -----

wisemodel相关：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.