通义千问2.5大模型再升级：18万亿字符训练打造的中英文AI助手|编程|上下文|ai助手|电子表格

分享至

如果说人工智能是当今科技发展的明珠，那么大语言模型就是这颗明珠上最璀璨的光芒。来自阿里巴巴集团的研究团队最近发布了他们的最新成果——通义千问2.5技术报告，这项研究于2025年1月发表，论文编号为arXiv:2412.15115v2。这不仅仅是一次技术升级，更像是给AI助手来了一次全身改造手术。

通义千问2.5就像是一位经过精心培训的多语言翻译官，不但能说会道，还能写能算。与之前版本相比，这次升级可谓脱胎换骨。研究团队将训练数据从原来的7万亿字符大幅扩展到18万亿字符，这就好比一个人的阅读量从几千本书增加到几万本书，知识储备自然更加丰富。更重要的是，他们还引入了多阶段强化学习技术，让这个AI助手不仅知识渊博，还更懂得如何与人交流。

这个新版本的通义千问2.5家族成员众多，从最小的5亿参数版本到最大的720亿参数版本应有尽有，就像汽车有经济型、舒适型和豪华型一样，满足不同用户的需求。对于普通用户来说，最令人兴奋的是，这个AI助手现在能够生成长达8000字的文章，相当于一篇小论文的长度，而且在数学计算、编程和逻辑推理方面的能力都有了显著提升。

一、训练数据的革命性扩展

在人工智能的世界里，数据就像是营养丰富的食材，而模型训练则像是烹饪过程。通义千问2.5的一大突破在于他们准备了前所未有的丰富食材。研究团队将预训练数据从7万亿字符扩展到18万亿字符，这相当于让AI阅读了整个图书馆的藏书。

这些数据并不是简单的堆积，而是经过精心筛选和处理的。研究团队使用了先进的数据过滤技术，就像厨师挑选最好的食材一样，他们用通义千问2系列模型作为"质检员"，对所有训练数据进行多维度评估和筛选。这种方法比之前的筛选技术更加智能，能够更准确地识别高质量内容，同时过滤掉低质量的信息。

在数学和编程领域的数据方面，研究团队特别加强了投入。他们整合了通义千问数学版和编程版的训练数据，让新模型在这两个重要领域有了更扎实的基础。此外，他们还大量使用了合成数据，这就像是在真实食材的基础上，用精湛的厨艺创造出新的美味佳肴。

数据配比的优化也是一个重要创新。研究团队发现，网络数据中电商、社交媒体和娱乐内容往往过多，而科技、学术和研究类内容相对较少。于是他们采取了"减肥增肌"的策略：减少重复性强、价值较低的内容比例，增加高价值领域的内容比重。这种平衡让模型既能理解日常对话，又能处理专业问题。

二、模型架构的精心设计

通义千问2.5的架构设计就像一套精密的工具箱，每个工具都有其特定用途。整个系列包含了七个不同规模的密集模型，参数量从5亿到720亿不等，还有两个混合专家模型用于在线服务。

在密集模型方面，研究团队继续采用了基于Transformer的解码器架构，这就像是使用经过验证的建筑框架来建造房子。他们集成了多项先进技术：分组查询注意力机制让模型在处理长文本时更高效，SwiGLU激活函数提供了更好的非线性处理能力，旋转位置编码技术帮助模型理解文本中词汇的相对位置关系。

混合专家模型的设计更加巧妙，就像是在标准工具箱的基础上增加了一套专业工具。他们将标准的前馈网络层替换为混合专家层，每一层都包含多个专家网络和一个路由机制。这种设计让模型能够根据输入内容的特点，自动选择最合适的"专家"来处理，既提高了效率，又保持了性能。

词汇表的扩展也值得一提。从之前的3个控制标记增加到22个，新增的标记主要用于工具调用和其他模型功能。这就像是给工具箱增加了更多专用工具，让模型能够处理更复杂的任务。

三、预训练过程的全面优化

通义千问2.5的预训练过程就像是精心安排的学习课程，分为几个阶段循序渐进。整个过程不仅规模庞大，而且精心设计了各种技术细节来确保最佳效果。

超参数优化是预训练的核心环节。研究团队建立了专门的缩放定律，用来确定不同规模模型的最优训练参数。这就像是为不同年龄段的学生制定不同的学习计划，确保每个模型都能在其规模下达到最佳性能。他们系统性地研究了学习率和批次大小与模型规模的关系，涵盖了从4400万到140亿参数的密集模型，以及从4400万到10亿激活参数的混合专家模型。

长文本预训练采用了分阶段策略。初始阶段使用4096个字符的上下文长度进行训练，然后逐步扩展到32768个字符。对于通义千问2.5-Turbo版本，他们甚至实施了四阶段扩展策略，最终支持高达100万字符的上下文长度。这种渐进式训练就像学习游泳，先在浅水区练习基本动作，再逐步挑战深水区。

为了提升长文本处理能力，研究团队还引入了YARN和双块注意力机制等技术。这些技术让模型能够将序列长度扩展到原来的四倍，同时保持在短序列上的优秀表现。

四、后训练技术的双重革新

通义千问2.5的后训练过程就像是给一个知识渊博的学者进行社交礼仪和沟通技巧的培训，让它不仅有知识，还能很好地与人交流。这个过程包含了监督微调和强化学习两大核心技术。

监督微调阶段使用了超过100万个高质量样本，涵盖了多个重要领域。在长文本生成方面，他们专门开发了长回答数据集，让模型能够生成长达8192字符的高质量内容。数学能力的提升通过整合通义千问数学版的链式思维数据来实现，这些数据包含了从公开数据集到合成问题的多样化来源。编程能力的增强则依靠通义千问编程版的多语言编程数据，支持近40种编程语言。

指令遵循能力的训练采用了基于代码的验证框架。这种方法让大语言模型生成指令和相应的验证代码，然后通过执行反馈进行筛选，确保模型能够准确理解和执行用户指令。结构化数据理解能力的培训包含了传统的表格问答、事实验证等任务，以及涉及结构化和半结构化数据的复杂任务。

强化学习阶段分为离线和在线两个部分。离线强化学习专注于那些难以用奖励模型评估的能力，如推理、事实性和指令遵循。研究团队通过精心构建和验证训练数据，确保离线强化学习信号既可学习又可靠。在线强化学习则利用奖励模型检测输出质量的细微差别，包括真实性、有用性、简洁性、相关性、无害性和去偏见等方面。

五、全方位性能评估

通义千问2.5的性能评估就像是一场全面的综合考试，涵盖了从基础知识到专业技能的各个方面。评估结果显示，这个新版本在多个关键指标上都取得了显著进步。

基础模型的评估重点关注自然语言理解、数学、编程、科学知识、推理和多语言能力。在MMLU基准测试中，通义千问2.5-72B取得了86.1分的优异成绩，超越了许多同规模的竞争对手。在数学能力方面，MATH基准测试的62.1分成绩展示了其强大的数学推理能力。编程能力在MBPP测试中达到了84.7分，显著超越了前一版本。

指令调优模型的评估更加全面，包括了开放基准测试和内部评估。在数学推理方面，通义千问2.5-72B-Instruct在MATH测试中取得了83.1分，展现出了卓越的数学问题解决能力。编程能力在HumanEval测试中达到86.6分，在MBPP测试中取得88.2分，都超越了大多数竞争对手。

人类偏好对齐的评估结果同样令人印象深刻。在Arena-Hard测试中，通义千问2.5-72B-Instruct取得了81.2分，显著超越了之前版本的48.1分。MTBench评分达到9.35分，也超越了多数竞争模型。

多语言能力的评估覆盖了指令遵循、知识利用、数学推理和文化理解等多个维度。结果显示，通义千问2.5在各个语言和任务上都表现出了竞争力，特别是在一些传统上被认为是挑战性的低资源语言上。

六、长文本处理能力的突破

长文本处理能力是通义千问2.5的一大亮点，就像给AI装上了"超级记忆"。这种能力让模型能够理解和生成更长的内容，处理更复杂的任务。

在RULER基准测试中，通义千问2.5-72B-Instruct取得了95.1分的优异成绩，在各个上下文长度上都表现出色。特别值得注意的是，即使在128K字符的长文本处理中，模型仍然能够保持88.4分的高分。通义千问2.5-Turbo更是实现了对100万字符上下文的支持，并在1M令牌的密钥检索任务中达到了100%的准确率。

LV-Eval和LongBench-Chat的测试结果进一步验证了模型的长文本处理能力。通义千问2.5-72B-Instruct在256K上下文长度下仍能保持45.2分的性能，远超其他开源模型。这种能力对于处理长篇文档、进行深度对话和完成复杂任务具有重要意义。

为了提升长文本处理的效率，研究团队还开发了基于稀疏注意力的推理优化技术。这种技术能够将注意力机制的计算负载减少12.5倍，同时将首字符生成时间缩短3.2到4.3倍，大大提升了用户体验。

七、技术创新与未来展望

通义千问2.5的技术创新体现在多个方面，每一项都像是精密机器上的关键零件。数据质量控制技术让模型能够从海量信息中筛选出最有价值的内容，混合专家架构提高了计算效率，多阶段强化学习确保了与人类偏好的对齐。

奖励模型的评估也是一个重要创新。研究团队发现，传统的单一基准测试可能无法全面反映奖励模型的真实性能，于是他们开发了多维度评估框架，包括RewardBench、RMB、PPE和内部中文人类偏好基准等。结果显示，通义千问2.5-RM-72B在多个评估维度上都表现出色。

展望未来，研究团队计划在三个方向继续深化研究。首先是继续改进基础模型，通过整合更广泛、更多样化的高质量数据来提升性能。其次是发展多模态能力，将文本、视觉和听觉等多种模态整合到统一框架中。最后是增强推理能力，通过推理时计算资源的战略性扩展来突破当前的技术限制。

这些技术突破不仅推动了大语言模型领域的发展，也为人工智能在各个应用场景中的部署提供了新的可能性。通义千问2.5强大的性能、灵活的架构和广泛的可用性，使其成为学术研究和产业应用的重要资源。

说到底，通义千问2.5的发布标志着大语言模型技术的又一次重大进步。从18万亿字符的训练数据到多阶段强化学习的应用，从5亿到720亿参数的全系列覆盖到100万字符的长文本支持，每一项技术细节都体现了研究团队的匠心独运。对于普通用户而言，这意味着更智能、更有用的AI助手即将走进我们的日常生活。对于研究者和开发者来说，这个开源的模型家族提供了强大的工具和灵感源泉。随着这类技术的不断成熟，我们有理由相信，人工智能将在更多领域发挥重要作用，为人类社会带来更多便利和可能性。

Q&A

Q1：通义千问2.5相比之前版本有哪些主要改进？

A：主要有三大改进：训练数据从7万亿字符扩展到18万亿字符，大幅提升了知识储备；引入多阶段强化学习技术，让AI更懂得与人交流；支持生成长达8000字的文章，并在数学计算和编程能力上显著提升。

Q2：通义千问2.5能处理多长的文本内容？

A：不同版本的处理能力不同，标准版本支持最长128K字符的上下文，而通义千问2.5-Turbo更是支持高达100万字符的上下文长度，在1M令牌的密钥检索任务中准确率达到100%。

Q3：普通用户如何使用通义千问2.5？

A：通义千问2.5提供了从5亿到720亿参数的多个版本，开源版本可通过Hugging Face、ModelScope等平台获取，商用版本包括通义千问2.5-Turbo和通义千问2.5-Plus可通过阿里云模型工作室使用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.