网易首页 > 网易号 > 正文 申请入驻

拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开

0
分享至

新智元报道

编辑:编辑部

【新智元导读】国产大模型「日日新 5.0」已经在权威主流评测中鲨疯了。变强的背后原因竟是,来自商汤自研中文Embedding模型——Piccolo2。这是首个对标OpenAI向量长度的模型。

国产大模型最近在权威主流评测中「杀」疯了!

商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中,成为首个超越GPT-4 Turbo的国产大模型;在OpenCompass的基准表现中,客观评测超过GPT-4 Turbo,主观评测已超过GPT-4o位列第一。

这次「又双叒叕变强」背后是算法、算力、数据的全面「buff」叠加,其中最重要的技术之一、也是解决LLM幻觉问题的关键——商汤自研的通用Embedding模型Piccolo2

Piccolo2日前已突破SOTA,在由北京智源研究院发布的中文语义向量评测基准C-MTEB评测中名列第一,这是当前最大规模、最为全面的中文语义向量表征能力评测基准,包含分类、聚类、句对分类、重排、检索和句子相似度六大类评测任务和31个数据集。

如今,商汤公开了技术路线。

Piccolo2目前支持512/2K/8K三种向量长度,其中8K模型是目前中文Embedding中能够实现对标OpenAI向量长度的模型。

论文地址:https://arxiv.org/abs/2405.06932

Hugging Face地址:https://huggingface.co/sensenova/piccolo-large-zh-v2

要读的论文又增加了!

模型幻觉「退退退」,长文本「准准准」!商汤全新嵌入模型性能大幅提升

正式读论文之前先聊聊Embedding对于大语言模型的重要性:

检索的准确度、可解释性、易操作的知识外挂……这些都是源于与LLM基于知识库的问答场景息息相关的Embedding模型性能。

嵌入(Embedding)就是将内容(如文字或代码)中的概念转化为一串数字序列。通过这种方式,机器学习模型和其他算法可以轻松理解不同内容之间的关系,执行聚类、检索等操作。

无论是应对幻觉和可解释性,还是应对长文,Piccolo2加持的商汤日日新5.0都完美地完成了从长文中处理和获取信息的任务。

在整个检索增强生成(RAG)pipeline中,Embedding的性能决定了检索的准确性,也间接决定了LLM输出的可信度,而RAG在私有化部署方面的优势也为其开辟了更多可能性。

RAG的一大优点就在于知识库可以通过文档的形式进行外挂,这使得知识能够更频繁地更新,而无需耗时耗力再通过二次预训练向LLM灌入这些知识,并且RAG的检索步骤能够提供上下文给模型作为参考依据,让大模型回答更加准确。

这些也催生了另一个优势——私有化,RAG可以帮助小企业轻松完成大模型的私有化部署,而无需暴露私有数据。

核心技术详解:对标OpenAI向量长度,精度位列MTEB中文榜单榜首

在这个LLM落地应用中必不可少的一环里,商汤已经将这项技术实现了SOTA,相比之前同量级的SOTA模型acge-embedding,Piccolo2模型综合评分提升了约1.9个点。

到了读论文环节,这背后用了什么方法?依然是算法、数据的双重发力。

与上一代(Piccolo)相比, Piccolo2 主要利用高效的多任务混合损失训练方法,有效地利用来自不同下游任务的文本数据和标签。

同时,Piccolo2 扩大了嵌入维度,并使用 MRL 训练来支持更灵活的向量维度。除了训练方法之外,Piccolo2 还利用了一个数据合成框架和难负挖掘方法,以不断扩充数据集的数量和质量。

多任务混合损失训练:适用不同下游任务

以往的Embedding模型训练过程主要依赖于的标准InfoNCE损失和批内负样本(in-batch negative),通常通过利用大量负样本来实现较好的性能。然而,标准 InfoNCE 并不适用当前Embedding模型所有的下游任务。

例如,句子相似度(STS)和句对分类任务(pair classification)这种具有细粒度标注的任务通常更适合用排序损失。

此外,分类任务和聚类任务在之前的工作中也没有被用于通用嵌入模型的训练。因此在Piccolo2中,商汤采用了多任务混合损失训练方法,针对不同的下游任务利用不同的训练损失,并证明了其优越的性能。

对于检索任务,Piccolo2采用标准的InfoNCE损失:

对于句对分类、句对相似度任务,Piccolo2采用排序损失:

对于分类、聚类任务,Piccolo2首先通过将文本的label视为正/负样本,把分类、聚类数据转换为三元组,然后采用不带批内负样本的InfoNCE损失进行训练:

大维度和MRL训练

在今年1月OpenAI发布的两个新的文本嵌入模型text-embedding-3-small和 text-embedding-3-large ,当时引发了广发关注。

受到 OpenAI 的 text-embedding-v3的启发,商汤在研发Piccolo2时,也扩大了Embedding的维度尺寸,从1024 增加到1792。

除此之外,还引入了「套娃学习」(Matryoshka Representation Learning, MRL)来支持更灵活的Embedding推理维度,「套娃学习」通过以嵌套方式对 O (log (d)) 低维向量进行显式优化在同一个高维向量中学习不同容量的表征。

高质量数据加持精度

Piccolo2的微调数据主要来自于开源社区和GPT-4生成的合成数据。同时,对于检索任务,Piccolo2也应用了难负样本挖掘来扩充数据质量。数据配比如下图所示:

实验介绍:

通过多任务混合损失训练的方式,Piccolo2在C-MTEB上达到了70.95的平均精度,相比之前同量级的SOTA模型acge-embedding,综合评分提升了约1.9个点。

同时,得益于MRL技术的加持,Piccolo2在Embedding小维度上也有相当强的优势——从1792维度降到256维度,精度也仅仅下降了约1个点。

如此,MRL算法让Embedding模型具备多粒度的表达能力,也为开发者们提供更加灵活的选择。

Piccolo2更多技术细节可以查看:

论文地址:https://arxiv.org/abs/2405.06932

Hugging Face地址:https://huggingface.co/sensenova/piccolo-large-zh-v2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你无意中发现过别人哪些秘密?网友:这不是我一个单身狗能看的

你无意中发现过别人哪些秘密?网友:这不是我一个单身狗能看的

带你感受人间冷暖
2025-12-18 00:10:08
森保一:如果富安健洋的状态达标,我就会征召他

森保一:如果富安健洋的状态达标,我就会征召他

懂球帝
2026-02-02 18:00:08
恩佐:我对在切尔西的3年感到自豪;向埃斯特旺致以深切慰问

恩佐:我对在切尔西的3年感到自豪;向埃斯特旺致以深切慰问

懂球帝
2026-02-03 01:50:10
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
Melody遭服务业集体爆料奥客行径 网惊吐:面试竟要帮狗擦尿

Melody遭服务业集体爆料奥客行径 网惊吐:面试竟要帮狗擦尿

ETtoday星光云
2026-02-02 12:46:05
碎三观!重庆一男子和妻妹发生不当关系转账380万,妻子默许了…

碎三观!重庆一男子和妻妹发生不当关系转账380万,妻子默许了…

火山诗话
2026-01-14 09:25:46
A股:今天冲到4103后百点跳水,种种迹象表明,明天或迎更大级别行情

A股:今天冲到4103后百点跳水,种种迹象表明,明天或迎更大级别行情

股市皆大事
2026-02-02 15:47:38
活了30年才知道,这些“反人类”生活物品的正确用法!以前可真傻

活了30年才知道,这些“反人类”生活物品的正确用法!以前可真傻

抠搜侠
2026-01-28 15:18:39
奔驰4款车型迎来官降!至高降幅达6.902万元,网友:早该这么做

奔驰4款车型迎来官降!至高降幅达6.902万元,网友:早该这么做

汽车网评
2026-02-01 22:58:03
“求你别再生了!”大凉山99年四胎宝妈火了,生存环境仅次于非洲

“求你别再生了!”大凉山99年四胎宝妈火了,生存环境仅次于非洲

妍妍教育日记
2026-02-02 19:11:58
与爱泼斯坦“不熟”?全球多名权势人物被曝与其关系密切,特朗普:我清白,我要起诉

与爱泼斯坦“不熟”?全球多名权势人物被曝与其关系密切,特朗普:我清白,我要起诉

红星新闻
2026-02-02 13:04:59
上海安福路逛了3小时,我扒到了5套普通人也能抄的冬日穿搭

上海安福路逛了3小时,我扒到了5套普通人也能抄的冬日穿搭

白宸侃片
2026-02-03 01:44:43
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
墨尔本新王者, 阿尔卡拉斯拍摄澳网冠军写真

墨尔本新王者, 阿尔卡拉斯拍摄澳网冠军写真

懂球帝
2026-02-02 10:45:14
1985年,一场误判让中国付出了上万亿的代价,一代巨星抱憾而终!

1985年,一场误判让中国付出了上万亿的代价,一代巨星抱憾而终!

老范谈史
2025-12-23 20:30:25
安徽美女道士胡千慧被捕:精通“胡媚术”,九名男徒弟揭露其罪行

安徽美女道士胡千慧被捕:精通“胡媚术”,九名男徒弟揭露其罪行

小熊侃史
2026-01-15 07:05:08
访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

东极妙严
2026-02-01 21:18:04
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
美国股市涨幅扩大,纳斯达克指数上涨0.6%

美国股市涨幅扩大,纳斯达克指数上涨0.6%

每日经济新闻
2026-02-02 23:19:30
从顶薪到地域攻击!赵睿为何对新疆怨念这么大?线上直接怒喷

从顶薪到地域攻击!赵睿为何对新疆怨念这么大?线上直接怒喷

你看球呢
2026-02-02 11:36:25
2026-02-03 02:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14464文章数 66563关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

手机
时尚
旅游
亲子
公开课

手机要闻

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

裤子+靴子:今年冬天最经典搭配,松弛又时髦!

旅游要闻

解锁勐泐 4 大玩法,读懂真正的傣家风情!

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版