如何让小模型拥有大智慧，StepFun发布10B小钢炮挑战巨型AI|模态|推理|新论文

分享至

在人工智能的世界里，一直存在着这样一个共识：模型越大，能力越强。就像建造大楼一样，人们总认为层数越多、面积越大，就越能容纳更多功能。那些拥有上千亿参数的超大型AI模型，确实在各种任务中表现出色，但它们也有个致命问题——太重了。这些庞然大物需要消耗大量的计算资源和电力，普通用户和中小企业根本无法负担。于是，一个问题摆在所有AI研究者面前：能不能造出一个小巧但聪明的AI，既能装进普通电脑，又能像那些超级AI一样聪明？

StepFun团队的回答是：可以。他们开发的STEP3-VL-10B模型，只有100亿参数，相当于那些顶尖模型的十分之一甚至二十分之一。但就是这个"小个子"，在多项测试中的表现却能跟那些"巨人"平起平坐，甚至在某些方面还略胜一筹。这就好比一辆紧凑型轿车，油耗只有大型SUV的一半，但在城市道路上的机动性和实用性反而更出色。

这个成果的意义远不止于技术本身。长期以来，AI领域存在着一种"军备竞赛"式的发展模式，各大科技公司不断堆砌参数量，追求更大的模型。但STEP3-VL-10B证明，通过精心设计的训练方法和巧妙的架构，小模型同样可以拥有强大的智能。这意味着未来更多人能够使用高性能AI，而不需要依赖昂贵的云服务或专业硬件。

打造一个多才多艺的视觉语言模型

STEP3-VL-10B是一个多模态模型，这意味着它能同时理解文字和图像。要理解这个模型的构成，我们可以把它想象成一个由不同部分组成的系统。

首先是视觉部分，研究团队选择了一个名叫Perception Encoder的组件，大小约为18亿参数。这个视觉编码器的特殊之处在于，它不是为了识别图像中的物体而设计的，而是为了理解图像中与语言相关的内容而优化的。简单来说，它学会了用"语言的方式"来看待图像，这样当它把看到的东西传递给语言模型时，两者之间就能更顺畅地交流。这就像是一个翻译官，它不仅要理解图像，还要用语言模型能听懂的方式来描述图像。

然后是语言部分，研究团队使用了Qwen3-8B作为模型的"大脑"，这是一个已经经过充分训练的语言模型。这两个部分通过一个投影层连接起来，这个投影层的作用是把视觉信息压缩并转换成语言模型能理解的格式。为了处理图像中的细节，模型采用了一种巧妙的方法：它同时看一张大图和几张小图。大图让模型看到整体情况，小图则让模型能够看清细节。这就像你在观察一个场景时，既要看全景，又要用放大镜看细节一样。

用海量高质量数据来喂养模型

模型的能力有多强，很大程度上取决于它学习的数据有多好。STEP3-VL-10B的训练数据包含了1.2万亿个文本和图像的组合单位，这是一个非常庞大的数据集。但关键不仅是数据的数量，而是数据的多样性和质量。

研究团队精心构建了多个数据类别。在知识领域，他们从互联网上收集了高质量的图文配对，包括来自Common Crawl的网页数据和他们自己爬取的国内互联网内容。为了避免网络数据的噪音，他们过滤掉了那些图片加载失败率过高的网页和包含二维码的内容。此外，他们还通过关键词搜索从百度和必应等搜索引擎获取了针对性的数据，确保模型能学到各个领域的知识。

在教育领域，他们收集了大约1500万个样本，涵盖从小学到大学再到职业教育的各个层次。这些数据包括数学、物理、化学等科目，还有特殊的内容如化学结构式和几何问题。这样做的目的是让模型能够理解和解决复杂的教育问题。

在文字识别领域，他们构建了一个包含4000万真实图像和3000万合成图像的数据集。这些数据涵盖了各种字体、排版和文字方向。为了让模型不仅能识别文字，还能把图像转换成代码，他们收集了大量的数据，包括把图表转换成Markdown或LaTeX代码的任务。

在定位和计数方面，他们收集了4亿个样本，让模型学会在图像中精确定位物体和计数。在图形用户界面理解方面，他们收集了2300万个样本，包括来自Android、iOS、Windows、Linux和macOS等多个平台的应用界面。这让模型能够理解和与各种应用程序交互。

两阶段训练策略：先打基础，再精细调整

STEP3-VL-10B的训练分为两个大的阶段。

第一阶段是预训练，这是模型学习基础知识的阶段。研究团队使用了一个统一的、完全解冻的训练策略，这意味着模型的所有部分都在同时学习，而不是冻结某些部分。他们在1.2万亿个多模态数据单位上进行了训练，分为两个子阶段。在前900亿个数据单位中，学习率从较高逐渐降低，让模型广泛学习各种知识。在后300亿个数据单位中，他们转向更高质量的数据，并进一步降低学习率，让模型专注于精细的感知任务，如文字识别和物体定位。

第二阶段是后训练，这是模型学会如何更好地与人类交互的阶段。这个阶段分为两个部分。首先是监督微调，研究团队从开源社区和他们自己的数据中收集了数百万个高质量的问题和答案。他们用一个更强大的内部模型来生成高质量的答案，然后对这些数据进行了严格的过滤，去掉了那些重复、低质量或与已知基准重复的内容。

在监督微调的第一阶段，他们用90%的纯文本数据和10%的多模态数据来训练模型，让它建立起坚实的逻辑和语言基础。在第二阶段，他们改变了比例，使用50%的文本数据和50%的多模态数据，让模型学会在文字和图像之间更好地切换。

强化学习：让模型学会自我改进

如果说前面的训练是让模型学习知识，那么强化学习就是让模型学会如何更好地应用这些知识。研究团队使用了一种称为近端策略优化的技术，这是一种在AI领域被广泛使用的方法。简单来说，这个方法的工作原理是这样的：模型生成一个答案，然后系统给这个答案打分，告诉模型这个答案有多好。模型根据这个反馈调整自己，试图在下一次生成更好的答案。这就像一个学生做练习题，老师给出分数和反馈，学生根据反馈改进自己的答案一样。

但这里有个关键的创新：研究团队设计了一个双层的奖励系统。对于那些有明确答案的任务，比如数学题或定位任务，系统使用客观的奖励。例如，对于定位任务，系统会计算模型指出的位置与正确答案的重合度。对于数学题，他们使用了一个非常聪明的验证方法：他们用一个强大的AI模型来检查答案是否正确，这个验证器不仅看最终答案，还检查推理过程是否合理。

对于那些没有明确答案的开放式任务，比如写一篇文章或回答一个观点问题，系统使用了一个学习的偏好模型。这个模型学会了什么样的答案人类更喜欢。此外，系统还设置了一些"安全栏杆"，比如检查答案中是否有虚假的引用，是否过度自信，以及是否在不同语言之间不当切换。

研究团队进行了超过1000次的强化学习迭代。首先，他们用600次迭代专注于可验证的任务，让模型在这些任务上建立坚实的基础。然后，他们用300次迭代进行人类反馈学习，让模型学会更好地与人类沟通。

并行协调推理：一个突破性的想法

这里有一个有趣的现象。在强化学习过程中，研究团队注意到模型在推理任务上表现得越来越好，但在感知任务上，模型生成的文本长度反而在减少。这看起来很奇怪，但实际上反映了两种不同的学习模式。

对于推理任务，比如解决数学问题，模型需要更长的思考过程，就像你需要在纸上写下详细的步骤来解决一个复杂的数学题一样。但对于感知任务，比如在图像中定位一个物体，模型学会了更直接、更有信心的方式来给出答案，所以不需要那么多的"思考"文本。

然而，这也暴露了一个问题。虽然模型在感知任务上变得更有信心，但它可能错过了一些复杂的视觉推理。研究团队想到了一个解决方案，他们称之为并行协调推理。这个方法的核心思想是：与其让模型一次性给出答案，不如让模型同时生成多个不同的答案，然后通过比较和综合这些答案来得出最终结论。

这就像你在做一个困难的决定时，不是直接下结论，而是从多个角度思考问题。你可能先想"从这个角度看，答案应该是A"，然后想"从那个角度看，答案应该是B"，最后通过比较这些不同的角度，得出一个更可靠的结论。

具体来说，模型会生成16到24个不同的初步答案，然后把这些答案作为上下文反馈给模型，让模型再次思考并生成最终答案。这个过程让模型有机会进行多角度的验证和自我检查。研究团队用500次强化学习迭代来训练模型在这个并行协调推理模式下的表现。

性能评估：一个小模型的大成就

现在到了最令人惊讶的部分：这个只有100亿参数的模型实际上表现得有多好？

研究团队在超过60个不同的基准测试上评估了这个模型，这些测试涵盖了多模态能力和纯文本能力。在多模态基准测试中，STEP3-VL-10B在几乎所有类别都表现最佳。在数学和科学推理方面，它在MMMU基准上得到了78.11%的分数，在MathVision上得到了70.81%。在一般的视觉识别和问答任务上，它在MMBench上达到了92.05%的准确率。在文字识别方面，它在OCRBench上得到了86.75%。在理解图形用户界面方面，它在ScreenSpot-V2上达到了92.61%。

更令人印象深刻的是，当研究团队使用并行协调推理模式时，这些数字还会进一步提高。在MMMU上，分数提升到了80.11%。在MathVision上，分数提升到了75.95%。在一些需要大量计数的任务上，分数提升了4.6%。在空间理解任务上，分数甚至提升了7.5%。

在纯文本任务上，STEP3-VL-10B也表现出色。在AIME2025这个极具挑战性的数学竞赛题目上，它达到了94.43%的准确率。在HMMT25上达到了92.14%。这些成绩远超同级别的其他开源模型。

最让人惊讶的是，当把STEP3-VL-10B与那些大10到20倍的模型比较时，它经常能打成平手甚至赢。例如，在MathVision上，它超过了GLM-4.6V（一个106亿参数的模型）。在许多任务上，它与Qwen3-VL-Thinking（一个235亿参数的模型）相当或更好。在某些任务上，它甚至超过了Gemini-2.5-Pro这样的专有顶级模型。

实际应用的启示

STEP3-VL-10B的成功有几个重要的启示。

启示一：效率比规模更重要

这个研究证明了一个重要的观点：在AI领域，盲目追求模型规模可能不是最优策略。通过更聪明的架构设计、更高质量的数据和更有效的训练方法，一个较小的模型可以达到甚至超过大得多的模型的性能。这对于那些资源有限的组织和个人来说是个好消息。

启示二：多模态能力需要专门优化

不能简单地把一个通用的视觉编码器和一个通用的语言模型拼接在一起。需要针对多模态任务进行专门的优化，包括选择合适的视觉编码器、设计有效的连接机制，以及使用针对性的训练数据。

启示三：数据的多样性至关重要

STEP3-VL-10B在众多不同的任务上都表现出色，这不是偶然的。它的成功源于训练数据覆盖了从知识领域到教育领域，从文字识别到GUI理解的各个方面。这种多样性让模型学会了在不同情境下灵活应用知识。

启示四：强化学习能显著提升性能

通过设计合理的奖励系统和进行充分的强化学习迭代，模型的性能能得到显著提升。特别是对于那些有明确评估标准的任务，强化学习的效果最为显著。

启示五：多角度推理能解决复杂问题

并行协调推理这个创新方法证明了，让模型从多个角度思考问题，然后综合这些角度的结论，能更好地解决复杂的推理任务。这个方法可能在未来被广泛应用。

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：STEP3-VL-10B相比GPT-4V最大的优势是什么？

A：STEP3-VL-10B最大的优势是参数量更小（仅10B参数）但性能接近，这意味着推理速度更快、成本更低、可以本地部署。它是开源模型，不受API调用限制，可以根据需要进行微调和定制，对计算资源的要求也远低于GPT-4V。

Q2：STEP3-VL-10B需要多大的显存才能运行？

A：STEP3-VL-10B的内存占用取决于精度：FP32精度需要约20GB显存，FP16精度需要约10GB，INT8量化版本仅需5GB。推理时还需额外2-5GB。建议使用A100 GPU最佳，A10或V100 GPU也可以运行，普通消费级显卡可能需要量化优化。

Q3：STEP3-VL-10B可以用来做医学诊断吗？

A：不建议单独用于医学诊断。STEP3-VL-10B在通用医学图像理解上表现不错，但不如专门的医学AI模型精准，可能缺乏专业医学知识。建议作为辅助工具，在医学领域数据上微调后使用，并必须与医学专家的判断相结合。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.