网易首页 > 网易号 > 正文 申请入驻

3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

0
分享至




编辑|张倩

最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。



这个模型名叫 VibeThinker-3B,是一个拥有 30 亿参数的密集推理模型,旨在探索在严格的小模型规模下,可验证推理能力能被推进到何种程度。

模型发布后,很多人都被它的成绩惊艳到了,表示要上手一试。





值得注意的是,它还是一个国产模型,来自新浪微博团队。



技术报告显示,该模型专为具有可靠验证信号的任务而设计,包括数学推理、竞技编程、STEM 推理以及带有明确约束的指令执行。

因此,它在各项基准测试中均表现出色 。其在 AIME26 测试中获得 94.3 分 ,在 HMMT25 测试中获得 89.3 分 ,在 LiveCodeBench v6 测试中获得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期间 LeetCode 最新未公开的周赛和双周赛中取得了 96.1% 的通过率。



这个模型是怎么训练的?技术报告揭示了一些细节。

首先,它基于 Qwen2.5-Coder-3B 构建,并采用升级版 Spectrum-to-Signal 流程进行后训练。该流程在监督微调(SFT)中加强了数据合成、质量过滤和课程学习,将 MGPO 风格的强化学习扩展到多个可验证领域,保留了完整的长上下文推理轨迹,并通过离线自蒸馏和指令强化学习(Instruct RL)来巩固各项能力。



VibeThinker-3B 整体训练流程



Spectrum-to-Signal 流程。

此外,VibeThinker-3B 还引入了 Claim-Level 可靠性评估(CLR),这是一种面向答案可验证推理的测试时 scaling 策略。CLR 进一步提升了数学基准测试的性能,将 AIME26 从 94.3 提高到 97.1,HMMT25 从 89.3 提高到 95.4,并将 BruMO25 提升至 99.2。



其具体训练流程如下:

  • 基于课程的两阶段 SFT。第一阶段侧重于数学、编程、STEM 推理、一般对话和指令遵循等方面的广泛能力覆盖。第二阶段转向难度更高、视野更广阔的推理样本。多样性探索蒸馏用于保留多个有效的解决方案路径。
  • 多领域推理强化学习。VibeThinker-3B 重用了 MGPO。强化学习依次应用于数学、编程和 STEM 推理任务。训练使用单个 64K 长上下文窗口来保留完整的长时域推理轨迹。
  • 离线自蒸馏。从数学、编程和 STEM RL 检查点筛选和提炼高质量轨迹,最终形成统一的学生模型。学习潜力评分用于优先考虑那些正确但学生尚未很好地模仿的轨迹。
  • Instruct RL。最后阶段提高了面向用户的提示的可控性。对于格式敏感且开放式的教学数据,采用基于规则的验证器和基于评分标准的奖励模型。

在最近的一个帖子中,知名 AI 研究者和博主 Sebastian Raschka 系统总结了 VibeThinker-3B 技术报告中披露的要点,包括以下几条:



如果你对这些内容感兴趣,可以去详细翻阅他们的技术报告。目前,模型也是可以公开下载的。



  • 报告标题:VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
  • 报告链接:https://arxiv.org/pdf/2606.16140
  • HuggingFace 链接:https://huggingface.co/WeiboAI/VibeThinker-3B

不过,该模型的适用范围是有明确限制的,因为它在需要通用知识的领域表现并不出色。





官方也明确指出了这一点,并提出「参数压缩覆盖假设」:不同的能力对模型参数的依赖方式截然不同。可验证推理更接近于一种高度可压缩、参数密集的能力,其核心在于多步骤推理、约束满足、自我纠错和答案验证。当任务空间结构足够清晰且反馈信号足够可靠时,紧凑型模型也可能具备接近前沿的推理能力。相比之下,开放领域知识、通用对话和长尾场景理解则更依赖于大规模参数来广泛覆盖事实、概念和世界知识。这一假设非常具有启发性。VentureBeat 在报道中写道:「它揭示了推理能力和事实知识之间存在部分解耦,并且前者可以比之前设想的更有效地压缩—— 这一洞见对业界如何看待模型设计、部署成本以及高级人工智能功能的普及性都具有深远的影响。」





作者表示,他们的目标并非打造一个替代大规模模型的小模型,而是沿着特定能力维度,审视小模型的真实边界。借助 VibeThinker-3B,他们希望表明,小模型不应仅仅被视为降低部署成本的妥协方案。在具有清晰反馈与验证机制的能力领域中,小型语言模型正展现出一条颇具前景的研究路径,有望实现前沿水平的性能,并与传统的参数规模扩展范式形成根本性的互补关系。

目前,该模型在社区中还面临一些质疑。如果大家对这个模型感兴趣,不妨自己去亲自试一下。



参考链接:https://x.com/orcus108/status/2066876960073281582

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7月买菜,少买豆角和茄子,多吃4种应季“黄金菜”,营养又便宜

7月买菜,少买豆角和茄子,多吃4种应季“黄金菜”,营养又便宜

秀厨娘
2026-07-02 16:30:15
董卿父亲发文悼念亡妻,句句不提女婿,却句句都是对密春雷的寒心

董卿父亲发文悼念亡妻,句句不提女婿,却句句都是对密春雷的寒心

孤芳自赏的小李
2026-06-30 12:16:55
表面老艺术家,私下贪财又好色,这几位晚节不保一点都不冤

表面老艺术家,私下贪财又好色,这几位晚节不保一点都不冤

梦史
2026-06-20 17:12:58
萨提亚:你的孩子不会记得你为他熬过多少深夜,操过多少心思,但是他永远能记住,他迷茫或者无助时,你的两种回应

萨提亚:你的孩子不会记得你为他熬过多少深夜,操过多少心思,但是他永远能记住,他迷茫或者无助时,你的两种回应

心理观察局
2026-07-03 07:19:06
强雷雨云团已至北京城区西部,十余区将有雷雨、冰雹

强雷雨云团已至北京城区西部,十余区将有雷雨、冰雹

新京报
2026-07-03 21:17:22
水利厅长退休5年被查,这个“清水衙门”其实并不清

水利厅长退休5年被查,这个“清水衙门”其实并不清

兮兮说故事
2026-07-04 03:41:44
葡萄牙总理:C罗每场为葡萄牙出战时,都是一位绝对出色的运动员

葡萄牙总理:C罗每场为葡萄牙出战时,都是一位绝对出色的运动员

兰亭墨未干
2026-07-03 10:13:13
北约无人机母机被俄击落,拆解后发现,战场正在发生根本性变化

北约无人机母机被俄击落,拆解后发现,战场正在发生根本性变化

剪剧课代表
2026-06-30 16:41:23
大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

巢客HOME
2026-07-01 09:30:05
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
台当局不装了,大陆军舰逼近日本,台高层马上放话,彻底豁出去了

台当局不装了,大陆军舰逼近日本,台高层马上放话,彻底豁出去了

小蒋爱唠嗑
2026-07-03 04:29:53
美国大满贯4强全部出炉!国乒连赢两场,世界第二又扛住压力晋级

美国大满贯4强全部出炉!国乒连赢两场,世界第二又扛住压力晋级

林子说事
2026-07-03 19:13:13
美国阿拉巴马州发生离奇命案:男子勒死女友驱车千里抛尸,正要掩埋尸体时突发心脏病,双双殒命荒野

美国阿拉巴马州发生离奇命案:男子勒死女友驱车千里抛尸,正要掩埋尸体时突发心脏病,双双殒命荒野

春城晚报
2026-07-03 07:42:03
苹果官方确认:iPhone关掉这3个设置,电池续航翻倍!老机型必关

苹果官方确认:iPhone关掉这3个设置,电池续航翻倍!老机型必关

小柱解说游戏
2026-07-01 11:19:07
央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

墨印斋
2026-05-29 13:20:21
杨议多年心结曝光!只因天津德云社开业,郭德纲少了一场送别

杨议多年心结曝光!只因天津德云社开业,郭德纲少了一场送别

TVB的四小花
2026-07-04 00:39:39
勇士管理层有多愚蠢,看完这份名单你就知道了!

勇士管理层有多愚蠢,看完这份名单你就知道了!

球童纯议
2026-07-04 02:08:41
靠点球打破淘汰赛进球荒的C罗,为何被换下后葡萄牙队踢得更好了

靠点球打破淘汰赛进球荒的C罗,为何被换下后葡萄牙队踢得更好了

姜大叔侃球
2026-07-03 10:56:18
蒋万安陷僵局!民调公布,台北市长选情一面倒,绿营三人不装了

蒋万安陷僵局!民调公布,台北市长选情一面倒,绿营三人不装了

羽逸地之光
2026-07-03 16:09:00
演员保剑锋方声明:自愿离婚

演员保剑锋方声明:自愿离婚

鲁中晨报
2026-07-03 11:22:08
2026-07-04 06:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13427文章数 142686关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
家居
艺术
游戏
教育

数码要闻

苹果摄像头版AirPods项目据称已被叫停

家居要闻

传奇筑 日常诗

艺术要闻

这位女子,在画坛默默无闻,作品清新质朴

R星官方又发动态!玩家们被吓到 有玩家为PS光盘开喷

教育要闻

国家免费给孩子补课了

无障碍浏览 进入关怀版