网易首页 > 网易号 > 正文 申请入驻

KaLM-Embedding-V2重塑高质量文本嵌入格局

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel推出邀请注册奖励活动,最高可得算力券+token包380元奖励,欢迎参与和支持!

大模型驱动的语义表示时代,文本嵌入模型(Text Embedding Models)已成为检索、STS、分类、排序等各类NLP下游任务的核心基石。然而,主流嵌入模型普遍依赖大规模数据或合成数据,很少系统性探索训练技巧与数据质量的协同优化。

结果就是,并且由于模型体积庞大,部署成本高昂,其泛化能力和可复现性不太理想。

此外,多数业界领先的嵌入模型来源于头部公司,其专有数据、封闭代码和商业限制为学术界和开发者社区带来了巨大的挑战,使得高效、可复现的研究难以进行。

为此,KaLM-Embedding团队推出了KaLM-Embedding-V2系列模型,一个以高质量数据+精湛训练技巧为核心打造的紧凑通用嵌入解决方案。它不仅性能强悍,更以0.5B参数的“小体型”挑战甚至超越多个7B~9B级模型!与同参数量规模的Qwen3-Embedding-0.6B以及bge-m3相比,KaLM-Embedding-V2系列展现出来显著的性能优势。


最重要的是,KaLM-Embedding不仅仅是一系列单点模型,而是一个面向学术界的全面开源贡献:

  • 完整的数据配方和全开源的数据让研究者能直接从training-ready的数据集着手;

  • 卓越的训练技术:让研究者快速构建媲美工业级的检索器模型。

  • 开放的商业授权:明确开放模型的商用权限,旨在推动RAG基础设施的普及;

  • 完整的训练与推理代码:降低复现与扩展的门槛,以及下游任务适配难度;


KaLM-Embedding团队望借此推动通用文本嵌入技术的开放:让任何研究者、开发者乃至企业团队,都能自由使用、改进与扩展这一嵌入框架;让高质量的语义理解能力不再只属于超大规模模型与封闭系统,而能通过开放数据与透明训练,被更广泛地共享、验证与创新。模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。


模型地址

https://wisemodel.cn/models/YanshekWoo/KaLM-embedding-multilingual-mini-instruct-v2.5

01.

模型方法


全双向表征学习

KaLM-Embedding-V2系列采样Qwen2-0.5B作为模型主干,但在架构上进行了关键性改造。LLMs天生具有因果注意力掩码,这限制了嵌入模型在进行表征学习时对全局上下文的捕捉。KaLM-Embedding-V2除了这一掩码,实现了完全双向的注意力机制,让模型能够更全面、更精确地捕捉文本的深层语义,为高性能嵌入打下坚实基础。模型仅0.5B参数,却在语义嵌入质量上媲美甚至超越3–26x大的模型。



精湛训练技巧

为解决嵌入模型训练中存在的若干问题,包括优化方向易被简单样本主导、难负样本信息量随训练衰减、hard标签信号过于粗粒度。研究团队系统性地设计了一系列训练优化技术,它们是KaLM-Embedding-V2性能腾飞的关键:

  • 焦点式重加权机制:借鉴Focal Loss的精髓,持续聚焦于那些“困难”和“易错”的难样本,从训练原理上保证了模型的边界判别能力能够对标工业级检索器的要求。

  • 在线困难负样本混合:针对离线挖掘的难负样本随着训练进行提供的信息量不足的问题,模型在训练过程中动态混合现有难负样本的特征,在极低计算成本下,实时合成信息量更多、难度更高的难负样本。

  • 对比蒸馏:从更强的教师模型中学习“细粒度语义差异”,实现语义区分力的飞跃。这使得模型实现了从“粗语义理解”到“精语义对齐”的质变。

  • 套娃式嵌入:对比学习和对比蒸馏训练目标引入套娃表示学习,实现更鲁棒的多维灵活嵌入,低维度依然稳健的高性能。


高质量数据为王

“好模型,离不开好数据”。KaLM-Embedding 团队建立了一个系统化的高质量训练数据构建体系。预训练覆盖 20+类弱监督语料(约470M样本),精调与蒸馏阶段覆盖100+类高质量监督数据(约6M样本)。数据覆盖多语言,多领域,多任务,长短文本。主要来源于公开数据集。引入任务指令、难负例挖掘、基于样例的多类别标注样本、Persona数据生成等策略,极大丰富任务多样性和数据的质量:

  • 任务指令:在输入到模型进行编码之前,会将特定的任务指令(task instruction)前置于查询文本(query)之前。



  • 难负例挖掘:在对比学习中,模型的目标是最大化查询与其正样本之间的相似度,同时最小化与负样本,尤其是难以区分的负样本之间的相似度。难负例挖掘用于提供具有挑战性的训练样本,以增强模型细粒度的区分能力。实现方式包括离线挖掘以及本工作提出的在线困难负样本混合。

  • 基于样例的多类别标注样本:针对分类和聚类数据集,构建基于样例的双端分类样本;对同类别聚类的样本视作正样本,将其他类别或聚类里面的样本是做负样本。

  • Persona数据生成:通过引入具有不同角色(Persona)设定的合成数据,进一步增强训练数据的多样性,并扩大模型的领域覆盖范围。



Spark-Chemistry-X1-13B能够助力化学相关科研工作的高效推进与深远探索,使得开发者能够高效便捷搭建化学性质预测、化学知识检索问答等相关应用,同时也激发了更多跨领域创新可能,例如计算机科学与化学、生物学与化学等。

02.

实验性能表现


主要结果

在MTEB英文和中文benchmark上,KaLM-Embedding-V2系列取得了双料冠军(< 1B parameters);对比更大的嵌入模型,比如bge-multilingual-gemma2,在参数量仅有1/18的情况下,KaLM-Embedding-V2性能表现也丝毫不逊色。在具体子任务上,KaLM-Embedding-V2.5在10/13 cases中,取得了最优或次优的表现

值得一提的是KaLM-Embedding-V2系列微调数据量仅6M,同时仅使用2-4 GPUs,Qwen3-Embedding-0.6B则使用了19M的微调数据量,充分说明精湛的训练技术和卓越的数据工程的有效性





OOD评估

为评估模型在真实工业场景下的鲁棒性与泛化能力,我们在两个中文域外检索任务中进行测试:客服FAQ检索与游戏文档搜索。所有数据均来自真实用户,且未用于模型训练。结果显示KaLM-Embedding-V2.5在相似规模下取得SOTA性能并在仅为Qwen3-Embedding-8B 参数量约1/15的情况下在8/12项上表现更优体现出了强大的泛化与鲁棒性。



可视化分析

为分析嵌入质量与下游任务性能的关系,我们在多种中英文聚类与分类数据上进行可视化。结果显示,KaLM-Embedding-V2.5的嵌入分布更紧凑、类别更分离相比V1和Qwen3-Embedding-0.6B,能更好区分细粒度语义。在RedditClustering和CLSClusteringP2P等任务中,V2.5的语义聚类更清晰,进一步验证了其优越的语义表示能力。


KaLM-Embedding-V2系列由KaLM-Embedding团队联合推出,通过高质量数据与精湛训练技巧,在仅0.5B参数下实现跨语言、多任务SOTA表现性能媲美3-26x大的模型其全开源、可商用、可复现的设计,旨在推动通用文本嵌入的开放,打造高效、透明、可持续的语义表示。

----- END -----


wisemodel相关:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无厘头!CBA明星外援出战55秒失误引发连环内讧,比赛结束被开除

无厘头!CBA明星外援出战55秒失误引发连环内讧,比赛结束被开除

体坛野秀才
2026-04-09 00:09:47
为了郑丽文专机能够顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能够顺利落地,解放军果断亮出底牌,痛击台独要害

健身狂人
2026-04-08 08:51:15
女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

另子维爱读史
2026-03-10 22:56:08
看懂了人性,才能读懂为何武松在血溅鸳鸯楼时,连丫鬟也不放过

看懂了人性,才能读懂为何武松在血溅鸳鸯楼时,连丫鬟也不放过

掠影后有感
2026-04-02 19:46:08
又有两队想抢字母哥!雄鹿超巨下家赔率更新:热火领跑火箭第四

又有两队想抢字母哥!雄鹿超巨下家赔率更新:热火领跑火箭第四

罗说NBA
2026-04-09 05:17:52
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

有范又有料
2026-04-07 16:45:46
4月9日赛程公布:国乒日乒各12人晋级,林诗栋温瑞博今日登场

4月9日赛程公布:国乒日乒各12人晋级,林诗栋温瑞博今日登场

老骾体育解说
2026-04-09 05:37:06
《冰湖重生》口碑出炉,观众评价一致,主演相差11岁没有CP感

《冰湖重生》口碑出炉,观众评价一致,主演相差11岁没有CP感

剧芒芒
2026-04-08 15:18:23
郑丽文率团开启大陆行程,未来5天参访三地

郑丽文率团开启大陆行程,未来5天参访三地

环球网资讯
2026-04-08 07:33:11
2026年养老金好消息!连续22年上涨,今年涨幅大概率超去年

2026年养老金好消息!连续22年上涨,今年涨幅大概率超去年

开心美食白科
2026-04-08 22:59:20
黎巴嫩总理称正加强外交政治沟通,寻求实现停火

黎巴嫩总理称正加强外交政治沟通,寻求实现停火

界面新闻
2026-04-08 20:29:42
CBA排名剧变:广东两敌掉队,辽宁双喜,六队争季后赛席位

CBA排名剧变:广东两敌掉队,辽宁双喜,六队争季后赛席位

老壥说体育
2026-04-09 00:04:21
甜妹田曦薇杀疯了,这露肩鱼尾裙下的腰臀比,谁看了不迷糊?

甜妹田曦薇杀疯了,这露肩鱼尾裙下的腰臀比,谁看了不迷糊?

娱乐领航家
2026-04-08 19:00:04
连续出手,普京新仇旧恨一起算,日本油尽灯枯,全国或将大乱?

连续出手,普京新仇旧恨一起算,日本油尽灯枯,全国或将大乱?

妙知
2026-04-09 05:27:14
美称获以色列总理尊重停火口头承诺

美称获以色列总理尊重停火口头承诺

财联社
2026-04-08 10:25:13
乱套了!90天任期已满拒不下台,委内瑞拉女总统获特朗普力挺。

乱套了!90天任期已满拒不下台,委内瑞拉女总统获特朗普力挺。

车窗起雾q
2026-04-09 02:55:07
父亲48岁再婚让我去参加,看到怀孕继母那刻,我整个人愣住了

父亲48岁再婚让我去参加,看到怀孕继母那刻,我整个人愣住了

雾岛夜话
2026-04-08 11:40:13
告别“秃”然!美国传奇多诺万植发失败后戴假发,形象大变

告别“秃”然!美国传奇多诺万植发失败后戴假发,形象大变

喜欢历史的阿繁
2026-04-09 02:14:16
曼联官宣马奎尔续约终老梦剧场!合同细节曝光,拒绝小贝高薪留队

曼联官宣马奎尔续约终老梦剧场!合同细节曝光,拒绝小贝高薪留队

罗米的曼联博客
2026-04-08 07:02:09
诺坎普破冰!西蒙尼赛后强势发言:没多进几个真遗憾!

诺坎普破冰!西蒙尼赛后强势发言:没多进几个真遗憾!

仰卧撑FTUer
2026-04-09 06:25:02
2026-04-09 07:11:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
468文章数 14关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

教育
家居
健康
亲子
公开课

教育要闻

“新型啃老”席卷全国:孩子不工作也不伸手要钱,家长害怕毁一生

家居要闻

自在恣意 侘寂风别墅

干细胞抗衰4大误区,90%的人都中招

亲子要闻

胡图图说他差几分就能兑换发卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版