网易首页 > 网易号 > 正文 申请入驻

啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

当整个AI行业陷入“参数竞赛”的狂热时,微博AI交出了一份出乎意料的答卷,为沸腾的大模型战场开辟了一条充满想象力的新路径。

近日,微博正式发布首个自研开源大模型VibeThinker,这个仅拥有15亿参数的“轻量级选手”,在国际顶级数学竞赛基准测试上击败了参数量是其数百倍的、高达6710亿的DeepSeek R1模型。

更令人瞩目的是,其单次“后训练”的成本仅7800美元,对比DeepSeek-R1和MiniMax-M1等成本直接降低了几十倍。

这一突破不仅重新定义了大模型的技术评价标准,更有望推动AI产业从“规模竞赛”转向“效率革命”。



行业黑马:小模型打破参数崇拜

在AI发展史上,参数量曾被视为衡量模型能力的核心指标。

行业普遍认为,复杂推理能力需要1000亿以上参数才能涌现,而小模型则因无法处理高难度问题被视为“天生不足”。

但如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理能力?

微博自研开源大模型VibeThinker,给出了行业一个肯定的答案。

当大多数AI厂商仍遵循着“规模扩大即智能提升”的Scaling Law法则时,微博AI研发人员转而优化模型结构和训练范式,并创新提出了“频谱到信号原理”(SSP)方法训练,创造出了一个仅拥有15亿参数的“轻量级选手”,但在AI竞技场上战胜了超越其数百倍体量的“巨人”。

VibeThinker一经发布,立即引起了全球AI研究界的广泛关注,因其在一系列涵盖数学、编码的权威基准测试中,交出了一份出乎意料的答卷:


△HuggingFace官方主动下场发文宣传VibeThinker论文

在AIME24、AIME25以及HMMT25三个高难度数学测试集上的表现,VibeThinker超越了参数量超其400倍的模型DeepSeek-R1-0120版本(模型大小671B),与规模为456B的MiniMax-M1效果接近或相当,甚至媲美Gemini 2.5 flash和Claude Opus 4。

此外,在LiveCodeBench v6(编程算法题测试集)中的成绩,VibeThinker成功追平参数量数超其数十倍的模型,比如欧洲领先AI企业Minstral.AI的深度思考模型Magistral-Medium-2506版本。

VibeThinker雄辩地证明,通过精巧的算法设计和训练策略,一个小规模模型完全有潜力在复杂的逻辑推理任务上,达到甚至超越那些体量庞大数百倍的巨型模型,更为AI产业的成本结构、技术路线和资本布局带来了全新的思考路径。

需要说明的是,VibeThinker目前发布的版本尚处于实验性版本,其研发重点主要集中于极大强化小模型复杂数学与竞赛编程等方面的能力,其在日常聊天等能力还没有做过针对性训练优化,所以暂不适合作为日常聊天工具进行互动,更适用于数学和代码等高智能应用场景。

成本革命:7800美元门槛重塑产业生态

训练成本一直是制约AI技术普及的关键瓶颈,VibeThinker的成就不仅在于惊艳的性能,更在于其极致的成本效益

根据公开数据,2025年主流大模型单次后训练(Post-Training)成本普遍在数十万美元级别。

上海AI企业MiniMax于今年6月发布的M1模型,使用512块H800 GPU训练三周,租赁成本约53.5万美元,创始人发文表示:“第一次感觉到大山不是不能翻越。”

今年9月,AI初创公司DeepSeek(深度求索)的论文登上《自然》杂志。论文首次揭示了训练R1的成本:仅为29.4万美元。这不包括DeepSeek公司在开发R1所基于的基础LLM(即DeepSeek-V3)上花费的约600万美元,但总成本仍然远低于竞争对手模型被认为花费的数千万美元。

在这样的行业背景下,VibeThinker整个后训练过程(包括SFT和RL阶段)总共只花费了约3900个GPU小时。按照当时的市场租赁价格,总计算成本仅7800美元



这也意味着,其用不到8000美元的成本,达到了需要花费30万、甚至50万美元才能企及的性能水平,成本效益比达到了惊人的30到60倍

这种成本上的显著优势,也意味着强大的AI推理能力不再是少数科技巨头的专利,原本被巨头垄断的技术资源得以普惠,更多中小型公司、研究机构和大学,都有机会参与到前沿AI创新开发中来,极大地促进了AI研究的普惠化,推动整个行业朝着更开放、更多元、更具活力的方向发展。

应用落地:微博AI生态多点开花

技术突破的最终价值在于应用落地

微博积极拥抱人工智能发展趋势,全面促进AI技术在多项业务场景的落地。

2024年,微博自主研发“知微”大语言模型,并成功通过备案,更陆续推出微博智搜、内容总结、AI互动号等前沿功能,优化用户体验,提升内容生产和互动效率。

基于自研的“知微”大模型,微博构建了适配微博场景的AI应用生态,并创造了两大顶流AI产品:

  • 一是微博智搜,它通过深度分析平台内海量优质内容,构建可信知识图谱,实现“精准捕捉用户需求、理解情感与场景”的突破性体验,6月智搜月活跃用户突破5000万;
  • 二是评论罗伯特,作为AI互动账号,它从毒舌风格起步,逐渐进化出温情与聪明版本,成为广大用户“又爱又恨”的交流对象,全网粉丝近200万,展现了AI评论助手的另一种可能性。

随着自研大模型VibeThinker取得突破,更标志着微博AI战略迈入新阶段。

立足于自研大模型VibeThinker,微博的未来规划凸显了鲜明的“数据赋能”路径。公司计划深度融合其在心理等垂直领域积累的独特数据资产,目标是打造一个更洞悉公众情绪、更能服务社会化需求的专属模型。

微博不仅是在优化一个大模型,更是在解锁其数据生态的深层价值,以提供更精准、更懂用户心理状态的下一代社交服务。

VibeThinker的强大技术能力,或将成为驱动微博AI应用“多点开花”的核心引擎,深度融入平台全业务生态。

未来,VibeThinker有望在微博智搜等核心AI产品中落地,不仅能持续提升用户使用体验,更有望打破场景边界,裂变出兼具社交属性与智能服务的下一个“社交超级生态”。

此外,VibeThinker的技术突破有望大幅降低微博AI应用成本

无论是智能搜索的算力损耗,还是实时互动场景的AI响应成本,都将得到高效优化,让平台在规模化投入AI能力时无需承担过高的资源压力,进一步释放微博的生态创新能力,为用户带来更丰富、更便捷的智能体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
战云密布:重兵合围中的伊朗

战云密布:重兵合围中的伊朗

墨心人
2026-01-15 13:47:37
山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

新浪财经
2026-01-15 00:06:03
盘后央行重磅利好!降息来了,A股午盘走强,ETF出现天量抛盘

盘后央行重磅利好!降息来了,A股午盘走强,ETF出现天量抛盘

看财经show
2026-01-15 16:57:15
痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

史政先锋
2026-01-13 19:34:38
刚刚,降息、降首付!

刚刚,降息、降首付!

贩财局
2026-01-15 16:48:05
好友见证贺娇龙从苦孩子成长为“推介官”,多人已赶赴昭苏送她最后一程,有摄影师缺席她最后一次拍摄遗憾自责

好友见证贺娇龙从苦孩子成长为“推介官”,多人已赶赴昭苏送她最后一程,有摄影师缺席她最后一次拍摄遗憾自责

极目新闻
2026-01-15 17:46:12
女子因厨师长一句不干就滚,在店门口躺了四天,店家还立一块牌子

女子因厨师长一句不干就滚,在店门口躺了四天,店家还立一块牌子

社会日日鲜
2026-01-15 06:52:20
吴晓求:若4100点还没挣钱,或不具备独立投资能力,ETF比很多个人投资者涨得好

吴晓求:若4100点还没挣钱,或不具备独立投资能力,ETF比很多个人投资者涨得好

界面新闻
2026-01-15 15:58:12
聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

极目新闻
2026-01-15 15:09:28
昆明市原市长刘佳晨隐瞒境外存款被公诉,曾因“全马破4”冲上热搜

昆明市原市长刘佳晨隐瞒境外存款被公诉,曾因“全马破4”冲上热搜

极目新闻
2026-01-15 17:14:43
原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

以茶带书
2026-01-15 14:14:27
贺娇龙好友透露抢救细节!开颅早上还很好,原本约了成龙开春签名

贺娇龙好友透露抢救细节!开颅早上还很好,原本约了成龙开春签名

好贤观史记
2026-01-15 14:11:32
仅拦截两枚,16枚弹道导弹突防成功!俄军无人系统部队大扩军

仅拦截两枚,16枚弹道导弹突防成功!俄军无人系统部队大扩军

鹰眼Defence
2026-01-14 17:39:32
GPT-5.2连肝7天,300万行代码造出Chrome级浏览器

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器

新智元
2026-01-15 13:18:03
2-3!1.5亿巨头失单刀,皇马爆出惊天大冷,被西乙保级队淘汰

2-3!1.5亿巨头失单刀,皇马爆出惊天大冷,被西乙保级队淘汰

我的护球最独特
2026-01-15 06:13:13
电池项目停产、连拉两日跌停 亿晶光电深陷退市危机

电池项目停产、连拉两日跌停 亿晶光电深陷退市危机

封面新闻
2026-01-15 16:45:21
降息,降首付!

降息,降首付!

刘晓博说楼市
2026-01-15 17:52:08
追觅员工怒怼CEO俞浩,其他员工纷纷截屏

追觅员工怒怼CEO俞浩,其他员工纷纷截屏

超角度
2026-01-15 12:30:36
家属透露聂卫平病逝细节:曾经患癌,去年突发脑梗昏迷12天

家属透露聂卫平病逝细节:曾经患癌,去年突发脑梗昏迷12天

南方都市报
2026-01-15 08:51:49
25岁操作工跳楼身亡,因多次请辞照顾偏瘫母亲遭拒?坠楼前曾与主管通话,涉事主管回应

25岁操作工跳楼身亡,因多次请辞照顾偏瘫母亲遭拒?坠楼前曾与主管通话,涉事主管回应

极目新闻
2026-01-15 11:14:53
2026-01-15 19:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12020文章数 176359关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美方就伊朗局势密集发声 专家:动武的后果将十分严重

头条要闻

美方就伊朗局势密集发声 专家:动武的后果将十分严重

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

艺术
旅游
本地
数码
公开课

艺术要闻

历代书家集字春联大集合

旅游要闻

上海迪士尼2026马年新春活动官宣,小马红心首次亮相

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

数码要闻

定档1月29日!AMD Ryzen 7 9850X3D发售时间已经确认

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版