网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

2025-01-27 13:37:20　来源: 量子位

吉林举报

0

分享至

金磊整理自凹非寺
量子位 | 公众号 QbitAI

谈到大模型的“国货之光”，除了DeepSeek之外，阿里云Qwen这边也有新动作——

首次将开源Qwen模型的上下文扩展到1M长度。

具体而言，这次的新模型有两个“杯型”：

Qwen2.5-7B-Instruct-1M
Qwen2.5-14B-Instruct-1M

它们在处理长文本任务中都已经实现稳定超越GPT-4o-mini，并且在处理百万级别长文本输入时可实现近7倍的提速！

（百万Tokens长文本，如果换算来看的话，可以是10本长篇小说、150小时演讲稿或3万行代码。）

目前，Qwen新模型相关的推理框架和技术报告等内容均已经发布。

接下来，我们就来继续深入了解一下。

模型性能

首先，让我们来看看Qwen2.5-1M系列模型在长上下文任务和短文本任务中的性能表现。

在上下文长度高达 100万Tokens的 “大海捞针” 式任务 ——Passkey Retrieval（密钥检索）中，Qwen2.5-1M系列模型展现出卓越性能，能够精准地从长度为1M的文档里检索出隐藏信息。

值得一提的是，在整个系列模型中，仅7B模型出现了为数不多的错误。

对于更复杂的长上下文理解任务，研究团队选择了RULER、LV-Eval和LongbenchChat等测试集。

综合这些结果来看，可以得到的关键结论如下：

一方面，Qwen2.5-1M系列模型相比之前的128K版本有显著进步。

在多数长上下文任务场景中，它表现更为出色，特别是应对超过64K长度的任务时，能够更有效地处理信息，展现出相较于128K版本更强的适应性与处理能力。

另一方面，Qwen2.5-14B-Instruct-1M模型具备一定优势。

在与Qwen2.5-Turbo以及GPT-4o-mini的对比中，该模型在多个数据集上的测评成绩更为突出。

这意味着，在现有的长上下文模型可选范围内，它作为开源模型，能够为使用者提供一种性能相对可靠、可替代其他产品的选择，不过不同模型都有各自的特点与适用场景，仍需依据具体需求进行判断。

除了长序列任务的性能外，我们同样关注这些模型在短序列上的表现。

团队在广泛使用的学术基准测试中比较了Qwen2.5-1M系列模型及之前的128K版本，并加入了GPT-4o-mini进行对比。

由此可以发现：

Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在短文本任务上的表现与其128K版本相当，确保了基本能力没有因为增加了长序列处理能力而受到影响。
与GPT-4o-mini相比，Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任务上实现了相近的性能，同时上下文长度是GPT-4o-mini的八倍。

如何炼成的？

在介绍完性能之后，我们来看下Qwen新模型背后的关键技术。

主要可以分为三大步骤，它们分别是长上下文训练、长度外推和稀疏注意力机制。

长序列的训练需要大量的计算资源，因此团队采用了逐步扩展长度的方法，在多个阶段将Qwen2.5-1M的上下文长度从4K扩展到256K：

团队从预训练的Qwen2.5的一个中间检查点开始，此时上下文长度为4K。
在预训练阶段，团队逐步将上下文长度从4K增加到256K，同时使用Adjusted Base Frequency的方案，将RoPE基础频率从10,000提高到10,000,000。

在监督微调阶段，团队分两个阶段进行以保持短序列上的性能：* 第一阶段：仅在短指令（最多32K长度）上进行微调，这里我们使用与Qwen2.5的128K版本相同的数据和步骤数，以获得类似的短任务性能。

第二阶段：混合短指令（最多32K）和长指令（最多256K）进行训练，以实现在增强长任务的性能的同时，保持短任务上的准确率。

在强化学习阶段，团队在短文本（最多8K长度）上训练模型。团队发现，即使在短文本上进行训练，也能很好地将人类偏好对齐性能泛化到长上下文任务中。

通过以上训练，最终获得了256K上下文长度的指令微调模型。

在上述训练过程中，模型的上下文长度仅为256K个Tokens。为了将其扩展到1M ，团队采用了长度外推的技术。

当前，基于旋转位置编码的大型语言模型会在长上下文任务中产生性能下降，这主要是由于在计算注意力权重时，Query和Key之间的相对位置距离过大，在训练过程中未曾见过。

为了解决这一问题，团队引入了Dual Chunk Attention (DCA)，该方法通过将过大的相对位置，重新映射为较小的值，从而解决了这一难题。

结果表明，即使是仅在32K长度上训练的Qwen2.5-7B-Instruct，在处理1M上下文的Passkey Retrieval任务中也能达到近乎完美的准确率。

这充分展示了DCA在无需额外训练的情况下，也可显著扩展支持的上下文长度的强大能力。

最后，便是稀疏注意力机制。

对于长上下文的语言模型，推理速度对用户体验至关重要。为为此，团队引入了基于MInference的稀疏注意力优化。

在此基础上，研究人员还提出了一系列改进：包括分块预填充、集成长度外推方案、稀疏性优化等。

通过这些改进，团队的推理框架在不同模型大小和GPU设备上，处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。

最后，该项目已经提供了在线体验的地址，感兴趣的小伙伴可以去尝鲜了~

HuggingFace体验地址：
https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo

魔塔社区体验地址：
https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

技术报告：
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

参考链接：
https://qwenlm.github.io/zh/blog/qwen2.5-1m/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

男子开车以为进小区结果是上高速近日，男子驾车从贵阳回遵义过端午，误将外观与小区大门高度相似的高速收

中安在线 2026-06-22 11:43:28
146 跟贴 146
2比2战平乌拉圭！佛得角再造冷门，手握出线主动权

澎湃新闻 2026-06-22 08:06:28
8600 跟贴 8600

内塔尼亚胡强硬表态：以军不会撤出黎巴嫩

新华社 2026-06-22 14:35:09
8327 跟贴 8327

痛别！派出所副所长陈佳鑫，一路走好

环球网资讯 2026-06-22 20:05:40
23 跟贴 23
女子将宠物犬寄存海底捞办公室后死亡门店回应

极目新闻 2026-06-22 08:36:39
2679 跟贴 2679

沙特被“打回原形”了？

新民晚报 2026-06-22 09:35:47
363 跟贴 363

视频丨东风-17发射状态首次公开！多车齐射场面硬核

环球网资讯 2026-06-22 08:05:35
919 跟贴 919
10年，不停挖不停修不停夜间施工？！上海市中心这段路，“扰民困局”如何破解

新民晚报 2026-06-22 18:49:07
162 跟贴 162

葡萄牙队孔塞桑：我们没义务给C罗喂球，会把球传给位置最好的队友，他和任何球员一样，都是来帮助球队的

极目新闻 2026-06-22 11:29:35
1972 跟贴 1972
周冬雨演话剧遭差评，导演回应

第一财经资讯 2026-06-22 14:25:10
78 跟贴 78
英国首相斯塔默发表辞职演讲当场哽咽：我要当妻子的好丈夫孩子的好爸爸

参考消息 2026-06-22 18:52:43
2182 跟贴 2182
降价也卖不动的合资燃油车开始主动撤出门店

界面新闻 2026-06-22 19:38:24
1 跟贴 1
在佛得角的中国游客：几乎每隔一个街区就有一家中国超市，名为“迷你张”“迷你陈”

南方都市报 2026-06-22 18:52:42
330 跟贴 330
1-5月全国一般公共预算收入100465亿元同比增长4%

界面新闻 2026-06-22 16:31:53
163 跟贴 163
中方将10家美国实体列出口管制管控名单

财联社 2026-06-22 09:05:08
521 跟贴 521
一国宣布对中国公民免签，我大使馆发布提醒

南方都市报 2026-06-22 08:16:34
570 跟贴 570
全球首架国产公务机投入商业运营

第一财经资讯 2026-06-22 12:52:46
71 跟贴 71
端午假期第二天北京市属公园迎客超38万人次

北青网-北京青年报 2026-06-20 14:47:09
132 跟贴 132
个税汇算6月30日结束，个人不补税7月1日起将付滞纳金：每日万分之五

极目新闻 2026-06-22 21:42:28
13 跟贴 13
李勇慧：中俄互联互通之路越走越宽

环球网资讯 2026-06-22 06:38:10
494 跟贴 494
三部门：加大保障外资企业国民待遇工作力度

证券时报 2026-06-22 14:34:46
685 跟贴 685
“九章四号”同系列光量子计算机“天衍-P2000”首次开放云服务

通信信息 2026-06-22 14:52:07
82 跟贴 82
重庆、杭州的这些汛情信息都是假的（2026·06·22）

今日辟谣 2026-06-22 18:39:49
17 跟贴 17
市场监管总局出台通知加强眼镜制配场所全链条计量监管

中国能源网 2026-06-22 07:44:03
254 跟贴 254
沈阳一公共停车位被霸占，居民无奈违停

沈阳公交网小林 2026-06-23 02:39:26
0 跟贴 0
反复消费智障人士范小勤是东大的众生之恶

问道求真 2026-06-23 02:29:48
0 跟贴 0

糖尿病管理“闭环”再进化：Insulet新系统自动胰岛素或增50%

糖尿病管理“闭环”再进化：Insulet新系统自动胰岛素或增50%

摸鱼算法

2026-06-22 01:53:16

安帅出手调整战术为卡塞米罗减负，巴西后腰世界杯状态持续低迷

安帅出手调整战术为卡塞米罗减负，巴西后腰世界杯状态持续低迷

老税系戏精北鼻

2026-06-23 00:31:20

女上司晚上留我加班，锁上门后她说：我今晚找你有个事

女上司晚上留我加班，锁上门后她说：我今晚找你有个事

千秋文化

2026-06-19 20:33:48

最容易和别人发生关系的女人，通常有两个特征

最容易和别人发生关系的女人，通常有两个特征

心理观察局

2026-06-18 06:27:06

心理素质太强了！女孩悬崖观景台踩空坠落悬在半空嚼着口香糖淡定等救援

心理素质太强了！女孩悬崖观景台踩空坠落悬在半空嚼着口香糖淡定等救援

闪电新闻

2026-06-22 11:59:34

两大核武国家，“水仗”升级

中国新闻周刊

2026-06-21 19:23:56

彻底炸了！俄罗斯，终极杀器重磅登场了！

彻底炸了！俄罗斯，终极杀器重磅登场了！

大嘴说天下

2026-06-21 22:50:05

1次验证逼疯10万粉丝？某顶流明星官网突设验证门槛，网友怒斥：看个动态比高考还难

1次验证逼疯10万粉丝？某顶流明星官网突设验证门槛，网友怒斥：看个动态比高考还难

追星雷达站

2026-06-22 00:22:21

郑丽文有大动作！国民党“二号人物”出手，李四川尴尬、急忙改口

郑丽文有大动作！国民党“二号人物”出手，李四川尴尬、急忙改口

悦心知足

2026-06-22 18:51:39

美以“塑料情”终撕遮羞布

风铃草语

2026-06-22 06:30:46

曼联相关足坛最新动态更新

体坛周报

2026-06-22 19:21:25

释永信与师姐释永梅合影：20多年前，她胸前挂着当时最时尚手机

释永信与师姐释永梅合影：20多年前，她胸前挂着当时最时尚手机

离离言几许

2026-06-03 22:53:39

为何日本面积那么小，还能住下1.24亿人，且家家都是独栋？

为何日本面积那么小，还能住下1.24亿人，且家家都是独栋？

抽象派大师

2026-05-22 16:51:49

林彪为何多次探望远离政治的贺子珍？孔东梅：恐怕只有一个原因

林彪为何多次探望远离政治的贺子珍？孔东梅：恐怕只有一个原因

小豫讲故事

2026-06-21 06:00:25

6月22日俄乌最新：乌军方向克里米亚发出强硬警告

6月22日俄乌最新：乌军方向克里米亚发出强硬警告

西楼饮月

2026-06-22 19:00:07

美伊和谈之际以色列为何频搅局？

美伊和谈之际以色列为何频搅局？

风铃草语

2026-06-22 06:39:13

阿根廷奥地利首发：梅西领衔争纪录，胜者晋级32强

阿根廷奥地利首发：梅西领衔争纪录，胜者晋级32强

老贃是个手艺人

2026-06-22 23:58:18

14天的冷淡期已过！中国不再给机会，欺负海外中企的荷兰要遭殃

14天的冷淡期已过！中国不再给机会，欺负海外中企的荷兰要遭殃

他想要很多很多的梦

2026-06-12 05:32:19

大衣哥再登热搜！演出结束与友人聚餐，面前放满光瓶白酒，引热议

大衣哥再登热搜！演出结束与友人聚餐，面前放满光瓶白酒，引热议

火山詩话

2026-06-22 08:06:53

成年球员围殴U15希望之星，中国足球已经下作成这样

成年球员围殴U15希望之星，中国足球已经下作成这样

晓看说

2026-06-22 23:06:01

追踪人工智能动态

12825文章数 176502关注度

往期回顾全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

媒体：中国"两箭齐发"反制美国不卖了也不买了

头条要闻

媒体：中国"两箭齐发"反制美国不卖了也不买了

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛，向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

游戏

教育

本地

健康

家居要闻

绿意盎然自然之境

老司机落泪！爆料称《GTA6》没有"特殊工作者"

教育要闻

首届直博清华学长重返母校，见证科高毕业生最美的青春模样

本地新闻

吃一次广东龙舟饭，才懂什么是豪华盛宴

粽子还没吃完？专家教你“清库存”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版