网易首页 > 网易号 > 正文 申请入驻

陈天桥携MiroThinker 1.5开年登场:跑赢万亿模型,实现小模型大智能

0
分享至


图片由AI生成

凭借成功预测Polymarket筛选题目,连续登顶FutureX全球榜首的MiroMind团队,正式发布了其自研旗舰搜索智能体模型MiroThinker 1.5。

MiroMind由全球知名创新企业家、慈善家陈天桥,与清华大学知名AI青年学者代季峰教授联合发起。

去年,陈天桥提出,发现式智能才是真正意义上的通用人工智能这一重磅创新理念,引发全球业内人士关注。他同时提出,建设发现式智能的5种关键能力,其中一项能力,是在未知条件下重建对世界的理解,这正是MiroMind的使命。

在过去7个月里,MiroMind在思考一个更本质的问题:智能的奇点究竟在哪里?

他们给出的答案不是把世界背进参数里,而是押注“发现式智能”:真正的智能不靠全知,而靠会研究、会查证、会修正——像顶级情报官一样对外极速取证、对内严苛去伪存真;像严谨研究员一样在不确定性里逼近真相,最终把预测未来从特权变成能力。

MiroThinker 1.5 :30B参数,闯入全球搜索智能第一梯队

MiroMind团队在AGI竞技场上,不信奉“大力出奇迹”,而是追求以高智效比为核心的巧劲。

MiroThinker-v1.5-30B仅用1/30的参数规模跑出了比肩众多1T模型的性能表现,其235B的版本在多个搜索智能体基准测试中跻身全球第一梯队。

BrowseComp性能对比

面对参数量高达30倍的万亿参数巨兽Kimi-K2-Thinking,MiroThinker-v1.5-30B用极低的成本展示了旗鼓相当的表现:

  • 推理成本:MiroThinker-v1.5-30B单条调用成本低至$0.07,仅为Kimi-K2-Thinking的1/20,且推理更快。
  • 性能表现:在关键评测集BrowseComp-ZH中实现性能超越,证明“大”不等于“强”。

MiroThinker团队指出,以扩大模型内部参数量(Internal Parameters)为核心的传统Scaling Law已明显触及边际瓶颈;要继续提升模型性能,必须从内部参数扩张转向以外部信息交互(External Interaction)为核心的Interactive Scaling,将智能的增长空间从内部参数扩展到外部世界。

Agent搜索评测基准性能对比

为什么该模型能在大幅降低成本的同时,性能依然能打?

因为这不是大参数碾压,而是一次“科学家模式”对“做题家模式”的胜利。以Scaling Law为代表的路线,更像“做题家”:试图把全人类知识(也包括噪声与错误)尽可能背进模型里;一旦遇到生物学等领域的未知问题,就容易基于概率分布“编”出一个看似合理的答案——幻觉往往由此产生。

在MiroThinker v1.0中,团队首次系统性提出Interactive Scaling:随着工具交互频率与深度提升,研究式推理能力也稳定增强——这构成了与模型大小、上下文长度并列的第三个可扩展维度。

v1.5更进一步,把这套机制内化为贯穿训练与推理全流程的核心能力:将模型训练成“科学家”,核心不是死记硬背,而是勤查证。遇到难题时,它不会给出概率最高的瞎猜,而是执行慢思考的研究闭环:提出假设→向外部世界查数据/取证→发现对不上→修正假设→再查证,直到证据收敛。

主流大模型往往追求万亿参数,试图把整个互联网“背”在脑子里。而MiroThinker系列选择了一条反共识的路线:刻意将模型控制在30B–200B的轻量级规模。研发团队强调,省下的不是算力,而是把算力花在了更刀刃的地方——对外的信息获取与交互。

团队不追求让模型拥有一颗“最重的脑子”,而是培养它拥有一双“最勤的手”。当模型同时具备研究式确认机制与时序因果约束,这种围绕外部信息获取的交互过程才让发现式智能真正落地——也正是对Interactive Scaling的深耕,使他们用小得多的模型,做到了大模型才能做到的事。

MiroThinker 1.5 核心技术揭秘

传统的模型思维链本质上是在模型内部知识空间的线性外推,推理偏差会随路径增长而不断累积,最终导致逻辑坍塌。

MiroThinker 1.5的核心发力点,在于通过Interactive Scaling打破孤立推理的僵局,将推理与外部环境深度耦合。通过构建“推理-验证-修正”循环,引入外部信息作为校验锚点,用确定性的证据流来对冲不确定性的推演,解决逻辑坍塌问题。

当智能的Scaling范式,不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理,而是依托模型高频与外部世界中探索与交互并获得闭环反馈时,小而高效的探索者模型能展现比肩于,甚至超出大而严谨的思考者模型的智力水平。

MiroThinker 1.5正是基于这一判断,将Interactive Scaling从推理阶段的外挂能力,前移并内化为训练阶段的核心机制。模型并非被要求尽量在脑中想清楚一切,而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的Agent。

在训练过程中,研发团队刻意削弱对“单次完美推理”的奖励,转而强化以下行为模式:

  • Evidence-Seeking(主动求证):模型被鼓励将每一个关键判断拆解为可验证的子假设,并主动发起对外查询、检索与比对。结论本身不再是训练目标,找到可靠证据的过程才是。缺乏信源支撑的高置信输出,会在训练中被系统性地惩罚。
  • Iterative Verification(多轮校验与自我修正):推理不被视为一次性路径,而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试,一旦发现证据冲突,必须显式调整假设,而非“带着错误继续推下去”。
  • Anti-Hallucination(对捷径的系统性过滤):对那些看起来合理、但缺乏真实依据的推理捷径保持零容忍。训练中不仅评估答案是否正确,更关注答案是如何得到的:任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径,都会被标记为低质量推理。

通过这种训练方式,MiroThinker 1.5逐步形成了一种本能反应:在不确定性面前,先交互、再判断;在高风险结论前,先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数,而是学会在需要时,快速、精准地向外部世界借力。

最终,团队用更小的参数规模,换来了更高的智能密度:不是让模型记住更多,而是让它学会如何找到、验证并使用信息。这正是MiroThinker 1.5能在显著降低推理成本的同时,依然保持一线性能的根本原因。

时序敏感训练沙盒,是破解因果律的钥匙:普通大模型训练常处在上帝视角——它在数据里早已见过结果,学到的往往是复述与剧透,而不是预测。MiroThinker的训练则约束模型只能看过去,不能看未来,在严格的时间可见性约束下做判断,再用同样受时序约束的证据去验证与更新。

  • 可控数据合成引擎:构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的“正确答案”并非静态标签,而是随时间戳动态演化;模型必须在严格的信息可见性约束下,基于当时可获取的信息做出判断,而校验过程同样显式引入时间戳约束,以确保推演与评分均符合真实世界的时序逻辑。
  • 时序敏感训练机制:采用严格的时间戳与信息可见性约束,彻底杜绝Future Leakage;模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。

在这种训练范式下,模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正,而不是依赖静态数据集中的标准答案。时间由此从一个背景变量,转变为塑造模型行为与推理方式的核心约束,使模型更接近真实世界中的认知与决策过程。(作者|李程程,编辑|李玉鹏)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
健身博主胡洪盛去世,年仅22岁读大四,减重90斤逆袭,死因引热议

健身博主胡洪盛去世,年仅22岁读大四,减重90斤逆袭,死因引热议

古希腊掌管松饼的神
2026-02-26 11:49:06
王宝强大概率不会出演《唐探4》

王宝强大概率不会出演《唐探4》

陈意小可爱
2026-02-26 10:23:33
香港粉岭山火火线近百米,深圳可见!警方称暂无人员伤亡报告

香港粉岭山火火线近百米,深圳可见!警方称暂无人员伤亡报告

南方都市报
2026-02-26 22:17:37
TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

红星新闻
2026-02-25 11:05:07
巴拿马还继续嘴硬?中方不再客气!连出两拳重击,锁死巴方命门

巴拿马还继续嘴硬?中方不再客气!连出两拳重击,锁死巴方命门

东极妙严
2026-02-27 08:15:11
伊朗媒体:伊朗拒绝向国外转移浓缩铀

伊朗媒体:伊朗拒绝向国外转移浓缩铀

财联社
2026-02-27 05:14:12
何超莲窦骁横琴口岸地下车库被偶遇,恩爱般配!

何超莲窦骁横琴口岸地下车库被偶遇,恩爱般配!

老吴教育课堂
2026-02-27 01:41:35
戴笠一生犯下最大的三个错:睡错一人,信错一人,杀错一人

戴笠一生犯下最大的三个错:睡错一人,信错一人,杀错一人

抽象派大师
2026-01-21 05:51:57
日本永住许可新规:压倒骆驼的最后一根稻草,5年签证成为前置门槛

日本永住许可新规:压倒骆驼的最后一根稻草,5年签证成为前置门槛

东京在线
2026-02-26 22:26:29
陈坤之子陈尊佑生母真相11年前就已大白天下

陈坤之子陈尊佑生母真相11年前就已大白天下

错过美好
2026-02-14 21:17:01
城事 | 老外来上海的“第一站”逛轻纺市场?不只是“塌便宜货”

城事 | 老外来上海的“第一站”逛轻纺市场?不只是“塌便宜货”

上观新闻
2026-02-26 13:29:12
博主:18岁留洋球员姜轶祥试训上海申花

博主:18岁留洋球员姜轶祥试训上海申花

懂球帝
2026-02-27 07:29:21
养父葬礼结束,分家产时我默默离开,不料养父亲女儿追了我5里地

养父葬礼结束,分家产时我默默离开,不料养父亲女儿追了我5里地

潇湘烟雨水
2026-02-27 08:06:05
米兰时装周:谷爱凌遭九旬老头搂腰摸手,妈妈脸色勉强,网友怒了

米兰时装周:谷爱凌遭九旬老头搂腰摸手,妈妈脸色勉强,网友怒了

小徐讲八卦
2026-02-27 06:17:21
中国男子在俄讨薪遭殴打!别再迷信俄友好,去异国打工真不是天堂

中国男子在俄讨薪遭殴打!别再迷信俄友好,去异国打工真不是天堂

老马拉车莫少装
2026-02-27 00:56:33
高位套现,从57亿英磅买入到1100亿港元卖出,长和系抛售英国电信,先生智勇无人能及。

高位套现,从57亿英磅买入到1100亿港元卖出,长和系抛售英国电信,先生智勇无人能及。

问道求真
2026-02-27 00:04:03
中国出重拳,美日都很疼!开工第一天,日本被当头暴击!

中国出重拳,美日都很疼!开工第一天,日本被当头暴击!

哲叔视野
2026-02-27 09:45:32
德里赫特复出恐延迟至三月底!多古欲提前回归,对曼联却有利有弊

德里赫特复出恐延迟至三月底!多古欲提前回归,对曼联却有利有弊

罗米的曼联博客
2026-02-27 10:22:16
跳高王子朱建华:退役定居美国,为养家糊口再次回国,后来怎样了

跳高王子朱建华:退役定居美国,为养家糊口再次回国,后来怎样了

笑饮孤鸿非
2026-02-27 03:09:47
一篇神文干趴全球股市,AI这孙子真要掀桌子?

一篇神文干趴全球股市,AI这孙子真要掀桌子?

智识漂流
2026-02-25 19:06:22
2026-02-27 10:51:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129896文章数 861819关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

媒体:骄傲十年后 德国不得不正视中国

头条要闻

媒体:骄傲十年后 德国不得不正视中国

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

魅族手机,终成弃子?

汽车要闻

40岁的吉利,不惑于内外

态度原创

本地
游戏
手机
亲子
艺术

本地新闻

津南好·四时总相宜

绝美容颜!疑似《生化危机:安魂曲》雪莉新面模曝光

手机要闻

vivo OriginOS 6最新公测招募开启:vivo X Fold+、iQOO 10等

亲子要闻

越讨厌跑得越远-游戏篇

艺术要闻

紫气东来,好运一整年!

无障碍浏览 进入关怀版