1.2B参数的AI模型如何在推理任务上超越众多竞争对手|实验|调度器|ai模型|深度思考模型

1.2B参数的AI模型如何在推理任务上超越众多竞争对手

2025-09-13 14:03:36　来源: 科技行者

北京举报

分享至

在人工智能的世界里，通常大家都认为模型越大越好，就像汽车引擎越大马力越强一样。不过，由小豆科技实验室（Xiaoduo AI Lab）的王群、刘杨、林清泉、曲志久、蒋玲等研究人员在2024年12月发表的这项研究却颠覆了这一认知。他们开发的Xmodel-2虽然只有12亿个参数，但在复杂推理和智能代理任务上的表现却令人刮目相看，甚至超越了许多更大的模型。感兴趣的读者可以通过arXiv:2412.19638v1访问完整论文，或在GitHub上查看开源代码：https://github.com/XiaoduoAILab/Xmodel-2。

这项研究的背景其实很容易理解。当前的大型语言模型虽然在许多任务上表现出色，但在复杂推理方面仍然存在明显不足。复杂推理能力对于自动化客服、科学发现等应用至关重要，但传统的解决方案往往是简单粗暴地增加模型规模，这就像用更大的锤子来敲核桃一样，虽然有效但成本高昂。Xmodel-2的研究团队决定另辟蹊径，他们要证明通过精巧的设计和训练策略，小模型也能在推理任务上取得卓越表现。

研究团队的核心创新体现在三个方面。首先，他们采用了基于张量程序的创新架构设计，这个技术听起来很复杂，但实际上就像是设计了一套标准化的乐高积木系统。在这个系统中，不同规模的模型可以共享同一套超参数配置，这意味着研究人员可以先在小模型上进行大量实验来寻找最优配置，然后将这些配置无缝地应用到更大的模型上。这种方法大大提高了研究效率，避免了在大模型上进行昂贵试验的需要。

其次，研究团队采用了来自MiniCPM的WSD学习率调度器。学习率调度器就像是训练过程中的节拍器，它控制着模型学习的快慢节奏。WSD调度器的全名是预热-稳定-衰减调度器，顾名思义，它将训练过程分为三个阶段：先是预热阶段让模型慢慢适应，然后是稳定阶段进行主要训练，最后是衰减阶段精细调优。这种方法确保了训练过程的稳定性和效率。

第三个关键创新是数据配比优化策略。研究团队深入探索了在训练的衰减阶段如何混合预训练数据和高质量的监督微调数据。经过400多次试验，他们发现最优的监督微调数据比例应该在60%到69%之间，具体数值取决于数据集的内部构成。这个发现就像是找到了烹饪的黄金配比，确保了模型在复杂推理任务上的出色表现。

Xmodel-2在训练过程中使用了1.5万亿个token的海量数据。这些数据来源广泛，包括中文语料CC_Chn、英文教育网页FineWeb-Edu、通用英文语料Dolma，以及StarCoder和The Stack等代码预训练数据集。在衰减阶段，研究团队还加入了多样化的监督微调数据，如EvolInstruct、OssInstruct和UltraChat等。为了提高模型的泛化能力，他们将监督微调数据分为五个不同类别：数学、代码、逻辑、知识和常识。其中，思维链数据被归类在逻辑类别下，通过规则变换增加了监督微调提示的多样性。

在模型架构设计上，Xmodel-2采用了类似于LLama 2的结构，但进行了多项优化。模型具有1536的隐藏层大小、3840的中间层大小、24个注意力头、8个键值头、48个层以及4096的上下文长度。与大多数使用BPE分词器的大型模型不同，Xmodel-2采用了自定义的Unigram分词器，词汇表大小为65,280个token。为了提高效率，模型实现了嵌入层共享，这一设计减少了1亿个参数。

研究团队特别强调了深而窄架构的重要性，这种设计对于小型语言模型尤为关键。同时，为了优化训练和推理效率，模型采用了分组查询注意力机制，使用24个注意力头和8个键值头。这种设计就像是在有限的资源下优化了信息处理的流水线。

训练过程分为两个关键阶段：稳定训练阶段和衰减阶段。在稳定训练阶段，模型使用约1.5万亿个token进行训练，主要来源于开放数据集。训练采用了通过模型调优实验确定的最优配置，使用WSD学习率调度器，批次大小为393万个token，最大学习率为0.01。

衰减阶段将预训练数据与高质量监督微调数据相结合，对WSD学习率调度器应用指数退火。退火公式为f(s-T) = 0.5^((s-S)/T)，其中T设置为5000步（200亿token），使学习率在最终训练阶段逐渐降低。这个过程就像是在雕琢艺术品的最后阶段，需要更加精细和谨慎的处理。

实验结果显示，Xmodel-2在多个基准测试中表现卓越。在常识推理任务上，包括ARC-Challenge、ARC-Easy、BoolQ、HellaSwag、OpenBookQA、PiQA、SciQ、TriviaQA和Winogrande等基准测试中，Xmodel-2展现了与同规模模型相当的竞争力。更令人印象深刻的是，在复杂推理任务上，Xmodel-2表现出了显著优势。

在GSM8K数学推理测试中，Xmodel-2达到了55.88%的准确率。在MATH高级数学测试中获得了25.50%的分数。在BBH大型基准测试中取得了48.40%的成绩。在MMLU多任务理解测试中达到了48.87%的准确率。在代码生成方面，HumanEval测试中达到了29.88%，MBPP测试中达到了29.20%。综合这些结果，Xmodel-2在复杂推理任务上的平均得分达到了39.62分，在1-2B参数规模的模型中表现出色。

特别值得关注的是Xmodel-2在智能代理任务上的表现。研究团队使用ReAct提示技术在四个代理任务上进行了评估，包括HotpotQA、FEVER、AlfWorld和WebShop。这些任务对小型语言模型来说极具挑战性，因为它们需要复杂推理、多步决策制定和现实世界交互能力。

在HotpotQA任务中，代理需要从维基百科检索信息，跨多个文档进行推理来回答复杂的开放式问题，Xmodel-2达到了13.70%的精确匹配率。在FEVER任务中，代理通过多项选择题验证声明的真实性，取得了40.00%的成绩。在AlfWorld任务中，代理需要在包含25个容器的环境中进行空间推理和决策制定，执行检索或操作物体等动作，Xmodel-2获得了0.78%的成功率。在WebShop任务中，代理需要在模拟的电子商务环境中导航、搜索、定制和购买物品，达到了2.20%的成功率。综合这些任务的表现，Xmodel-2取得了14.21的平均分，在同规模模型中表现最佳。

研究团队还进行了一些有趣的案例研究。首先是校准性分析，结果显示预训练的Xmodel-2模型具有良好的校准性，预测置信度与实际正确性概率密切对应。校准图显示了模型的预测置信度与实际准确率之间的关系，接近完美校准的对角线，这表明模型对自身预测的可信度评估相当准确。

另一个引人关注的发现是后训练缩放定律。研究团队在Wikitext-2数据集上探索了测试时损失随提示token数量增加的变化规律。分析显示，随着上下文token数量的增加，模型对下一个token的预测准确性提高，损失与token索引遵循幂律关系。拟合曲线显示L(t) = b + (t/c)^a，其中a约为-0.575，b约为1.772，c约为32.840。这一发现表明，类似于OpenAI使用测试时间来增强模型性能的方法，增加上下文长度确实能带来更准确的token预测。

在研究过程中，团队还进行了大量的模型风洞实验来验证训练策略。他们在两个小模型（6M参数的nano模型和54M参数的tiny模型）上进行了超参数搜索和数据配比优化，这些实验证实了策略对Xmodel-2的适用性。

具体来说，他们使用贝叶斯优化对四个关键超参数进行了搜索：scale_emb、dim_model_base、scale_depth和learning_rate。在nano模型上使用C4数据集进行了300种配置的探索，相比网格搜索的57万种配置大大提高了效率。结果显示，最优学习率应在0.01到0.02之间，dim_model_base应低于256。损失低于4.1的配置集中在特定超参数周围，表明性能稳定。

研究团队发现，μP超参数在不同模型规模间保持稳定，这验证了他们架构设计的有效性。张量程序技术的应用使得不同规模的模型能够共享相同的超参数配置，大大简化了大模型的调优过程。

数据配比实验揭示了指令格式化的监督微调数据在退火阶段的有效性，最终确定将64%的比例分配给监督微调数据。这些调整结合优化的数据混合和处理，使复杂推理性能较基线提高了29.31%。

整个研究过程体现了精心设计的重要性。通过创新的架构、优化的学习率调度和精确的数据配比，Xmodel-2证明了小模型也能在特定领域达到甚至超越大模型的性能。这就像是一位技艺精湛的工匠，用更少的材料制作出了更精美的作品。

说到底，这项研究为我们展示了一个重要的观点：在人工智能发展的道路上，并不总是需要通过增加模型规模来提升性能。通过精巧的设计和优化，小模型同样可以在特定任务上取得卓越表现。Xmodel-2的成功不仅为研究人员提供了一个高效的工具，更重要的是，它证明了智能的实现并不完全依赖于规模的扩张，而是可以通过更好的方法论和技术创新来达成。

这项研究对于整个人工智能领域具有重要意义。它为那些计算资源有限但希望在推理任务上取得突破的研究者和开发者提供了新的思路。同时，Xmodel-2在智能代理任务上的出色表现也预示着它在客户服务自动化、任务自动化等实际应用中的巨大潜力。

归根结底，Xmodel-2的研究告诉我们，在追求人工智能能力提升的过程中，创新的方法往往比简单的规模扩张更有价值。这种"小而美"的设计理念不仅降低了计算成本，提高了训练效率，更重要的是为人工智能的普及和应用开辟了新的道路。对于那些希望深入了解这项研究细节的读者，完整的论文和代码都已在GitHub上开源，为进一步的研究和应用提供了宝贵资源。

Q&A

Q1：Xmodel-2相比其他1-2B参数的模型有什么特别之处？

A：Xmodel-2最大的特点是专门针对推理任务进行优化设计。它采用了创新的张量程序架构，使得不同规模模型能共享超参数配置，大大提高了训练效率。同时使用WSD学习率调度器和精心优化的数据配比策略，在复杂推理和智能代理任务上的表现超越了许多同规模甚至更大的模型。虽然只有12亿参数，但在GSM8K、MATH等推理基准测试中表现卓越。

Q2：小豆科技为什么要开发这样一个小参数模型而不是追求更大规模？

A：研究团队认为简单增加模型规模并不是提升推理能力的最佳方案。他们要证明通过精巧设计和优化策略，小模型同样可以在特定任务上达到甚至超越大模型的性能。这种方法不仅降低了计算成本和能耗，还提高了训练效率，为资源有限的研究者和开发者提供了更实用的解决方案，同时也为AI技术的普及应用开辟了新道路。

Q3：普通开发者如何使用Xmodel-2，它适合哪些应用场景？

A：Xmodel-2已经在GitHub上开源（https://github.com/XiaoduoAILab/Xmodel-2），开发者可以免费获取模型权重和代码。由于其在推理和代理任务上的优异表现，特别适合用于自动化客服、任务自动化、代码生成、数学问题求解等需要复杂推理的应用场景。相比大模型，它的部署成本更低，运行效率更高，非常适合中小企业和个人开发者使用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.