网易首页 > 网易号 > 正文 申请入驻

拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开

0
分享至

新智元报道

编辑:编辑部

【新智元导读】国产大模型「日日新 5.0」已经在权威主流评测中鲨疯了。变强的背后原因竟是,来自商汤自研中文Embedding模型——Piccolo2。这是首个对标OpenAI向量长度的模型。

国产大模型最近在权威主流评测中「杀」疯了!

商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中,成为首个超越GPT-4 Turbo的国产大模型;在OpenCompass的基准表现中,客观评测超过GPT-4 Turbo,主观评测已超过GPT-4o位列第一。

这次「又双叒叕变强」背后是算法、算力、数据的全面「buff」叠加,其中最重要的技术之一、也是解决LLM幻觉问题的关键——商汤自研的通用Embedding模型Piccolo2

Piccolo2日前已突破SOTA,在由北京智源研究院发布的中文语义向量评测基准C-MTEB评测中名列第一,这是当前最大规模、最为全面的中文语义向量表征能力评测基准,包含分类、聚类、句对分类、重排、检索和句子相似度六大类评测任务和31个数据集。

如今,商汤公开了技术路线。

Piccolo2目前支持512/2K/8K三种向量长度,其中8K模型是目前中文Embedding中能够实现对标OpenAI向量长度的模型。

论文地址:https://arxiv.org/abs/2405.06932

Hugging Face地址:https://huggingface.co/sensenova/piccolo-large-zh-v2

要读的论文又增加了!

模型幻觉「退退退」,长文本「准准准」!商汤全新嵌入模型性能大幅提升

正式读论文之前先聊聊Embedding对于大语言模型的重要性:

检索的准确度、可解释性、易操作的知识外挂……这些都是源于与LLM基于知识库的问答场景息息相关的Embedding模型性能。

嵌入(Embedding)就是将内容(如文字或代码)中的概念转化为一串数字序列。通过这种方式,机器学习模型和其他算法可以轻松理解不同内容之间的关系,执行聚类、检索等操作。

无论是应对幻觉和可解释性,还是应对长文,Piccolo2加持的商汤日日新5.0都完美地完成了从长文中处理和获取信息的任务。

在整个检索增强生成(RAG)pipeline中,Embedding的性能决定了检索的准确性,也间接决定了LLM输出的可信度,而RAG在私有化部署方面的优势也为其开辟了更多可能性。

RAG的一大优点就在于知识库可以通过文档的形式进行外挂,这使得知识能够更频繁地更新,而无需耗时耗力再通过二次预训练向LLM灌入这些知识,并且RAG的检索步骤能够提供上下文给模型作为参考依据,让大模型回答更加准确。

这些也催生了另一个优势——私有化,RAG可以帮助小企业轻松完成大模型的私有化部署,而无需暴露私有数据。

核心技术详解:对标OpenAI向量长度,精度位列MTEB中文榜单榜首

在这个LLM落地应用中必不可少的一环里,商汤已经将这项技术实现了SOTA,相比之前同量级的SOTA模型acge-embedding,Piccolo2模型综合评分提升了约1.9个点。

到了读论文环节,这背后用了什么方法?依然是算法、数据的双重发力。

与上一代(Piccolo)相比, Piccolo2 主要利用高效的多任务混合损失训练方法,有效地利用来自不同下游任务的文本数据和标签。

同时,Piccolo2 扩大了嵌入维度,并使用 MRL 训练来支持更灵活的向量维度。除了训练方法之外,Piccolo2 还利用了一个数据合成框架和难负挖掘方法,以不断扩充数据集的数量和质量。

多任务混合损失训练:适用不同下游任务

以往的Embedding模型训练过程主要依赖于的标准InfoNCE损失和批内负样本(in-batch negative),通常通过利用大量负样本来实现较好的性能。然而,标准 InfoNCE 并不适用当前Embedding模型所有的下游任务。

例如,句子相似度(STS)和句对分类任务(pair classification)这种具有细粒度标注的任务通常更适合用排序损失。

此外,分类任务和聚类任务在之前的工作中也没有被用于通用嵌入模型的训练。因此在Piccolo2中,商汤采用了多任务混合损失训练方法,针对不同的下游任务利用不同的训练损失,并证明了其优越的性能。

对于检索任务,Piccolo2采用标准的InfoNCE损失:

对于句对分类、句对相似度任务,Piccolo2采用排序损失:

对于分类、聚类任务,Piccolo2首先通过将文本的label视为正/负样本,把分类、聚类数据转换为三元组,然后采用不带批内负样本的InfoNCE损失进行训练:

大维度和MRL训练

在今年1月OpenAI发布的两个新的文本嵌入模型text-embedding-3-small和 text-embedding-3-large ,当时引发了广发关注。

受到 OpenAI 的 text-embedding-v3的启发,商汤在研发Piccolo2时,也扩大了Embedding的维度尺寸,从1024 增加到1792。

除此之外,还引入了「套娃学习」(Matryoshka Representation Learning, MRL)来支持更灵活的Embedding推理维度,「套娃学习」通过以嵌套方式对 O (log (d)) 低维向量进行显式优化在同一个高维向量中学习不同容量的表征。

高质量数据加持精度

Piccolo2的微调数据主要来自于开源社区和GPT-4生成的合成数据。同时,对于检索任务,Piccolo2也应用了难负样本挖掘来扩充数据质量。数据配比如下图所示:

实验介绍:

通过多任务混合损失训练的方式,Piccolo2在C-MTEB上达到了70.95的平均精度,相比之前同量级的SOTA模型acge-embedding,综合评分提升了约1.9个点。

同时,得益于MRL技术的加持,Piccolo2在Embedding小维度上也有相当强的优势——从1792维度降到256维度,精度也仅仅下降了约1个点。

如此,MRL算法让Embedding模型具备多粒度的表达能力,也为开发者们提供更加灵活的选择。

Piccolo2更多技术细节可以查看:

论文地址:https://arxiv.org/abs/2405.06932

Hugging Face地址:https://huggingface.co/sensenova/piccolo-large-zh-v2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拒接报价!马刺因合同问题放弃索汉交易,尼克斯补强遇阻

拒接报价!马刺因合同问题放弃索汉交易,尼克斯补强遇阻

大眼瞄世界
2026-02-01 01:26:30
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
中英双方在英国首相斯塔默访华期间达成一系列积极成果

中英双方在英国首相斯塔默访华期间达成一系列积极成果

界面新闻
2026-01-30 07:04:47
梅西从2009年至今每年都有帽子戏法!C罗去年止步连续14年!

梅西从2009年至今每年都有帽子戏法!C罗去年止步连续14年!

氧气是个地铁
2026-01-31 23:26:54
词穷了,已经没有适合她的词来形容她的美了

词穷了,已经没有适合她的词来形容她的美了

动物奇奇怪怪
2026-01-26 13:01:49
下滑太明显了!快船真的没必要继续让锋线老将出现在轮换阵容中?

下滑太明显了!快船真的没必要继续让锋线老将出现在轮换阵容中?

稻谷与小麦
2026-02-01 01:25:11
A股:电网设备行业迎4万亿元机遇,2026年具有十倍股潜力上市公司

A股:电网设备行业迎4万亿元机遇,2026年具有十倍股潜力上市公司

有料财经
2026-01-31 21:30:24
加州拟重税ICE私营拘留所

加州拟重税ICE私营拘留所

起喜电影
2026-02-01 01:39:16
日本高官叫嚣,只要高市早苗赢得本次大选,中国将不得不放她一马

日本高官叫嚣,只要高市早苗赢得本次大选,中国将不得不放她一马

知法而形
2026-01-31 16:29:15
知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

毒sir财经
2026-01-30 16:23:01
汪伪政府规模究竟多大?国际社会有哪些国家承认该政权

汪伪政府规模究竟多大?国际社会有哪些国家承认该政权

唠叨说历史
2026-01-27 18:31:17
银价暴涨后CT废胶片回收价涨幅250%,曾有夫妻雇人用胶片提炼白银27余斤,两人被判缓刑罚7万元

银价暴涨后CT废胶片回收价涨幅250%,曾有夫妻雇人用胶片提炼白银27余斤,两人被判缓刑罚7万元

每日经济新闻
2026-01-30 14:10:33
狼队发布花絮预热徐彬加盟采访,画面中徐彬与黄喜灿友好击掌

狼队发布花絮预热徐彬加盟采访,画面中徐彬与黄喜灿友好击掌

懂球帝
2026-01-31 22:00:38
马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

郭蛹包工头
2026-01-30 11:33:20
大打出手!4次夺权恐遭CBA重罚,球迷吵作一团:落后方凭啥不能投

大打出手!4次夺权恐遭CBA重罚,球迷吵作一团:落后方凭啥不能投

后仰大风车
2026-01-31 07:05:08
西方计划重启丘吉尔摧毁俄罗斯的方案

西方计划重启丘吉尔摧毁俄罗斯的方案

碳基生物关怀组织
2026-01-09 20:09:20
21连败!外援没工资拒赛,主帅赛后抹眼泪,名记提出“解套”办法

21连败!外援没工资拒赛,主帅赛后抹眼泪,名记提出“解套”办法

以茶带书
2026-01-31 20:10:45
2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

小茉莉美食记
2026-01-30 07:27:46
情况不对,菲总统确认病倒,中国代表团已抵达菲律宾本土

情况不对,菲总统确认病倒,中国代表团已抵达菲律宾本土

卷史
2026-01-31 09:38:44
沙特国防部长:如果特朗普现在不打伊朗,只会让他们更加胆大妄为

沙特国防部长:如果特朗普现在不打伊朗,只会让他们更加胆大妄为

观察者小海风
2026-01-31 10:53:05
2026-02-01 02:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14451文章数 66553关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

健康
教育
游戏
数码
艺术

耳石症分类型,症状大不同

教育要闻

一年一度“花式”期末考,成都的小学今年做了哪些探索?又有哪些特别?

B社大佬:《老滚6》必须好好学《博德3》!

数码要闻

苹果发布2026新春影片《碰见你》:iPhone 17 Pro镜头下的温暖奇遇

艺术要闻

半世纪的蜕变:她从初中辍学到传奇艺术家!

无障碍浏览 进入关怀版