网易首页 > 网易号 > 正文 申请入驻

啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

当整个AI行业陷入“参数竞赛”的狂热时,微博AI交出了一份出乎意料的答卷,为沸腾的大模型战场开辟了一条充满想象力的新路径。

近日,微博正式发布首个自研开源大模型VibeThinker,这个仅拥有15亿参数的“轻量级选手”,在国际顶级数学竞赛基准测试上击败了参数量是其数百倍的、高达6710亿的DeepSeek R1模型。

更令人瞩目的是,其单次“后训练”的成本仅7800美元,对比DeepSeek-R1和MiniMax-M1等成本直接降低了几十倍。

这一突破不仅重新定义了大模型的技术评价标准,更有望推动AI产业从“规模竞赛”转向“效率革命”。



行业黑马:小模型打破参数崇拜

在AI发展史上,参数量曾被视为衡量模型能力的核心指标。

行业普遍认为,复杂推理能力需要1000亿以上参数才能涌现,而小模型则因无法处理高难度问题被视为“天生不足”。

但如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理能力?

微博自研开源大模型VibeThinker,给出了行业一个肯定的答案。

当大多数AI厂商仍遵循着“规模扩大即智能提升”的Scaling Law法则时,微博AI研发人员转而优化模型结构和训练范式,并创新提出了“频谱到信号原理”(SSP)方法训练,创造出了一个仅拥有15亿参数的“轻量级选手”,但在AI竞技场上战胜了超越其数百倍体量的“巨人”。

VibeThinker一经发布,立即引起了全球AI研究界的广泛关注,因其在一系列涵盖数学、编码的权威基准测试中,交出了一份出乎意料的答卷:


△HuggingFace官方主动下场发文宣传VibeThinker论文

在AIME24、AIME25以及HMMT25三个高难度数学测试集上的表现,VibeThinker超越了参数量超其400倍的模型DeepSeek-R1-0120版本(模型大小671B),与规模为456B的MiniMax-M1效果接近或相当,甚至媲美Gemini 2.5 flash和Claude Opus 4。

此外,在LiveCodeBench v6(编程算法题测试集)中的成绩,VibeThinker成功追平参数量数超其数十倍的模型,比如欧洲领先AI企业Minstral.AI的深度思考模型Magistral-Medium-2506版本。

VibeThinker雄辩地证明,通过精巧的算法设计和训练策略,一个小规模模型完全有潜力在复杂的逻辑推理任务上,达到甚至超越那些体量庞大数百倍的巨型模型,更为AI产业的成本结构、技术路线和资本布局带来了全新的思考路径。

需要说明的是,VibeThinker目前发布的版本尚处于实验性版本,其研发重点主要集中于极大强化小模型复杂数学与竞赛编程等方面的能力,其在日常聊天等能力还没有做过针对性训练优化,所以暂不适合作为日常聊天工具进行互动,更适用于数学和代码等高智能应用场景。

成本革命:7800美元门槛重塑产业生态

训练成本一直是制约AI技术普及的关键瓶颈,VibeThinker的成就不仅在于惊艳的性能,更在于其极致的成本效益

根据公开数据,2025年主流大模型单次后训练(Post-Training)成本普遍在数十万美元级别。

上海AI企业MiniMax于今年6月发布的M1模型,使用512块H800 GPU训练三周,租赁成本约53.5万美元,创始人发文表示:“第一次感觉到大山不是不能翻越。”

今年9月,AI初创公司DeepSeek(深度求索)的论文登上《自然》杂志。论文首次揭示了训练R1的成本:仅为29.4万美元。这不包括DeepSeek公司在开发R1所基于的基础LLM(即DeepSeek-V3)上花费的约600万美元,但总成本仍然远低于竞争对手模型被认为花费的数千万美元。

在这样的行业背景下,VibeThinker整个后训练过程(包括SFT和RL阶段)总共只花费了约3900个GPU小时。按照当时的市场租赁价格,总计算成本仅7800美元



这也意味着,其用不到8000美元的成本,达到了需要花费30万、甚至50万美元才能企及的性能水平,成本效益比达到了惊人的30到60倍

这种成本上的显著优势,也意味着强大的AI推理能力不再是少数科技巨头的专利,原本被巨头垄断的技术资源得以普惠,更多中小型公司、研究机构和大学,都有机会参与到前沿AI创新开发中来,极大地促进了AI研究的普惠化,推动整个行业朝着更开放、更多元、更具活力的方向发展。

应用落地:微博AI生态多点开花

技术突破的最终价值在于应用落地

微博积极拥抱人工智能发展趋势,全面促进AI技术在多项业务场景的落地。

2024年,微博自主研发“知微”大语言模型,并成功通过备案,更陆续推出微博智搜、内容总结、AI互动号等前沿功能,优化用户体验,提升内容生产和互动效率。

基于自研的“知微”大模型,微博构建了适配微博场景的AI应用生态,并创造了两大顶流AI产品:

  • 一是微博智搜,它通过深度分析平台内海量优质内容,构建可信知识图谱,实现“精准捕捉用户需求、理解情感与场景”的突破性体验,6月智搜月活跃用户突破5000万;
  • 二是评论罗伯特,作为AI互动账号,它从毒舌风格起步,逐渐进化出温情与聪明版本,成为广大用户“又爱又恨”的交流对象,全网粉丝近200万,展现了AI评论助手的另一种可能性。

随着自研大模型VibeThinker取得突破,更标志着微博AI战略迈入新阶段。

立足于自研大模型VibeThinker,微博的未来规划凸显了鲜明的“数据赋能”路径。公司计划深度融合其在心理等垂直领域积累的独特数据资产,目标是打造一个更洞悉公众情绪、更能服务社会化需求的专属模型。

微博不仅是在优化一个大模型,更是在解锁其数据生态的深层价值,以提供更精准、更懂用户心理状态的下一代社交服务。

VibeThinker的强大技术能力,或将成为驱动微博AI应用“多点开花”的核心引擎,深度融入平台全业务生态。

未来,VibeThinker有望在微博智搜等核心AI产品中落地,不仅能持续提升用户使用体验,更有望打破场景边界,裂变出兼具社交属性与智能服务的下一个“社交超级生态”。

此外,VibeThinker的技术突破有望大幅降低微博AI应用成本

无论是智能搜索的算力损耗,还是实时互动场景的AI响应成本,都将得到高效优化,让平台在规模化投入AI能力时无需承担过高的资源压力,进一步释放微博的生态创新能力,为用户带来更丰富、更便捷的智能体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

影孖看世界
2025-11-16 20:05:08
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
台湾退役少校怒怼日本:这次千万别投降

台湾退役少校怒怼日本:这次千万别投降

扬子晚报
2025-11-18 12:25:32
里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

鋭娱之乐
2025-11-18 12:44:19
爆大冷!女团半决赛对阵出炉,卫冕冠军被淘汰,孙颖莎连剃光头

爆大冷!女团半决赛对阵出炉,卫冕冠军被淘汰,孙颖莎连剃光头

知轩体育
2025-11-18 15:08:04
全运会男团1/4决赛巅峰一战!樊振东苦战5局:3-2险胜梁靖崑!

全运会男团1/4决赛巅峰一战!樊振东苦战5局:3-2险胜梁靖崑!

齐帅
2025-11-18 12:18:46
林海涵已任“镇改市”浙江温州龙港市委书记

林海涵已任“镇改市”浙江温州龙港市委书记

鲁网淄博
2025-11-18 15:49:47
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
雷军罕见硬刚回应!同日公关负责人被曝调整

雷军罕见硬刚回应!同日公关负责人被曝调整

智能车参考
2025-11-17 14:52:45
已确认!是知名演员周润发

已确认!是知名演员周润发

大象新闻
2025-11-18 13:14:07
沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

兴趣知识
2025-11-17 15:39:26
紫牛问政|智能燃气表自身耗电费用,该谁买单?南京市民起诉港华燃气案开庭

紫牛问政|智能燃气表自身耗电费用,该谁买单?南京市民起诉港华燃气案开庭

扬子晚报
2025-11-18 12:06:53
列车中途停站近5小时?12306回应

列车中途停站近5小时?12306回应

鲁中晨报
2025-11-18 10:12:17
著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

极目新闻
2025-11-18 09:42:29
阿里巴巴被指为军方针对美国境内目标行动提供支持 外交部回应

阿里巴巴被指为军方针对美国境内目标行动提供支持 外交部回应

新京报
2025-11-17 16:31:05
太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

火山诗话
2025-11-18 09:14:18
广东模特冠军诞生!你还敢嘲笑辽宁吗?

广东模特冠军诞生!你还敢嘲笑辽宁吗?

麦杰逊
2025-11-18 11:33:20
商竣程2-1逆转头号种子布云朝克特,晋级全运会四强

商竣程2-1逆转头号种子布云朝克特,晋级全运会四强

懂球帝
2025-11-18 13:13:08
三大指数均跌逾1% 下跌个股近4400只

三大指数均跌逾1% 下跌个股近4400只

财联社
2025-11-18 14:22:20
联合国回应高市早苗言论

联合国回应高市早苗言论

每日经济新闻
2025-11-18 14:17:06
2025-11-18 17:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
11701文章数 176333关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

刚刚,中美机器人爆发了一场论战

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

艺术
健康
游戏
手机
公开课

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

警惕超声报告这六大"坑"

国外大神攻破《极品飞车:热力追踪重制版》D加密

手机要闻

iPhone中国销量强势增长!10月销量同比增长37% 市占高达25%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版