网易首页 > 网易号 > 正文 申请入驻

MiroThinker-1.5智能体模型,30B评测性能超越1T模型

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。

MiroMind 由全球知名创新企业家、慈善家陈天桥,与清华大学知名 AI 青年学者代季峰教授联合发起,团队曾凭借成功预测 Polymarket (全球最大的去中心化预测市场)题目,连续登顶 Future X 全球榜首。

近期,团队又率先开源搜索智能体模型——MiroThinker 1.5,该智能体模型在多个搜索智能体基准测试中跻身全球第一梯队,超过ChatGPT-Agent、Seed-1.8、DeepSeek-3.2等模型。MiroThinker 1.5已上线始智AI-wisemodel开源社区,欢迎大家前去体验。


模型地址

https://wisemodel.cn/models/MiroMind/MiroThinker-v1.5-30B

01.

杰出的性能表现

MiroThinker-v1.5-30B 仅用1/30的参数规模跑出了比肩众多 1T 模型的性能表现,其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。

在BrowseComp上,位列全球第一。


BrowseComp 性能对比

在四项基准测试中的表现杰出:

  • HLE-Text(人类终极测试):39.2%

  • BrowseComp(网页检索类大模型基准测试):69.8%

  • BrowseComp-ZH(BrowseComp的中文适配版本):71.5%

  • GAIA-Val-165(GAIA基准测试验证集):80.8%


Agent 搜索评测基准性能对比

越级挑战:MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面对参数量高达 30 倍的万亿参数巨兽 Kimi-K2-Thinking,MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现:

  • 推理成本MiroThinker-v1.5-30B 单条调用成本低至 $0.07,仅为 Kimi-K2-Thinking 的 1/20,且推理更快。

  • 性能表现在关键评测集 BrowseComp-ZH 中实现性能超越,证明「大」 不等于 「强」。

02.

技术介绍

主流大模型往往盲目追求万亿参数,MiroThinker 系列选择了一条反共识的路线:刻意将模型控制在 30B–200B 的轻量级规模。MiroMind 团队强调,省下的不是算力,而是把算力花在了更刀刃的地方 —— 对外的信息获取与交互。当模型同时具备研究式确认机制与时序因果约束,这种围绕外部信息获取的交互过程才让“发现式智能”真正落地。这也是对 Interactive Scaling 的深耕,使他们用小得多的模型,做到了大模型才能做到的事。


MiroThinker 1.5 的核心发力点,在于通过 Interactive Scaling 打破孤立推理的僵局,将「推理」与「外部环境」深度耦合。通过构建「推理 - 验证 - 修正」循环,引入外部信息作为校验锚点,用确定性的证据流来对冲不确定性的推演,解决逻辑坍塌问题。

Training-time Interactive Scaling 技术,将交互内化进模型推理,用确定性对抗不确定性

当智能的 Scaling 范式不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理,而是依托模型高频与外部世界中探索与交互并获得闭环反馈时,小而高效的探索者模型能展现比肩于甚至超出大而严谨的思考者模型的智力水平。

MiroThinker 1.5 正是基于这一判断,将 Interactive Scaling 从推理阶段的外挂能力,前移并内化为训练阶段的核心机制。模型并非被要求「尽量在脑中想清楚一切」,而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的 Agent。

在训练过程中,MiroMind 团队刻意削弱对「单次完美推理」的奖励,转而强化以下行为模式:

  • Evidence-Seeking(主动求证)模型被鼓励将每一个关键判断拆解为可验证的子假设,并主动发起对外查询、检索与比对。结论本身不再是训练目标,找到可靠证据的过程才是。缺乏信源支撑的高置信输出,会在训练中被系统性地惩罚。

  • Iterative Verification(多轮校验与自我修正)推理不被视为一次性路径,而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试,一旦发现证据冲突,必须显式调整假设,而非「带着错误继续推下去」。

  • Anti-Hallucination(对捷径的系统性过滤)对那些「看起来合理、但缺乏真实依据」的推理捷径保持零容忍。训练中不仅评估答案是否正确,更关注答案是如何得到的:任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径,都会被标记为低质量推理。

通过这种训练方式,MiroThinker 1.5 逐步形成了一种本能反应:在不确定性面前,先交互、再判断;在高风险结论前,先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数,而是学会在需要时,快速、精准地向外部世界借力。

时序敏感训练沙盒

时序敏感训练沙盒,是破解因果律的钥匙:普通大模型训练常处在上帝视角—— 它在数据里早已见过结果,学到的往往是复述与剧透,而不是预测。MiroThinker 的训练则约束模型只能看过去,不能看未来,在严格的时间可见性约束下做判断、再用同样受时序约束的证据去验证与更新。

  • 控数据合成引擎构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的「正确答案」并非静态标签,而是随时间戳动态演化;模型必须在严格的信息可见性约束下,基于当时可获取的信息做出判断,而校验过程同样显式引入时间戳约束,以确保推演与评分均符合真实世界的时序逻辑。

  • 时序敏感训练机制:采用严格的时间戳与信息可见性约束,彻底杜绝 Future Leakage;模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。

在这种训练范式下,模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正,而不是依赖静态数据集中的「标准答案」。时间由此从一个背景变量,转变为塑造模型行为与推理方式的核心约束,使模型更接近真实世界中的认知与决策过程

03.

模型样例

样例一: A 股涨停板预测

(注:以下仅为样例展示,不构成投资建议)

日期:12 月 10 日(周三)


对话链接:https://dr.miromind.ai/share/07430808-d84d-4e40-9615-bf07d6e71365

注解:

跃岭股份:16 只连板股,当天晋级仅 4 只,晋级率 25%,市场情绪显著退潮。MiroMind 在 8 支二板股里,精准押中唯一晋级成功的那一支。

12 月 11 日(周四)


对话链接:https://dr.miromind.ai/share/eccc29b9-889b-43f9-b6bf-f4b2b7c8dc1e

注解:

再升科技:9 只连板股,当天晋级仅 2 只,晋级率 22%,市场环境持续降温。MiroMind 命中 9 支连板股中高位晋级者 —— 退潮里选中“活口”。

样例二: GTA 6 明年能按时发布吗?


对话链接:https://dr.miromind.ai/share/10e5d1fd-c6b6-4b96-a2ed-4b776a3e1dcd

编辑:赵雅鑫

----- END -----


wisemodel相关:

系列模型:


关于wisemodel更多


1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吉达联合主席:我们曾为梅西提供年薪14亿欧合同,但他拒绝了

吉达联合主席:我们曾为梅西提供年薪14亿欧合同,但他拒绝了

懂球帝
2026-01-14 06:04:47
最新消息:“马背上的女县长”贺娇龙抢救无效去世!精彩过往曝出

最新消息:“马背上的女县长”贺娇龙抢救无效去世!精彩过往曝出

胡侃社会百态
2026-01-15 03:41:25
中国队出线1小时传双利好,1-4决赛已定,四强可期

中国队出线1小时传双利好,1-4决赛已定,四强可期

郭錉包工头
2026-01-15 03:05:34
0分1板+正负值最低,状元郎回家不会打球了?球迷:不敢打就下去

0分1板+正负值最低,状元郎回家不会打球了?球迷:不敢打就下去

弄月公子
2026-01-14 21:53:25
何晴去世30天,儿子许何终于发声,字字催泪,才知许亚军有多体面

何晴去世30天,儿子许何终于发声,字字催泪,才知许亚军有多体面

叨唠
2026-01-14 05:55:37
震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

刀刃故事
2024-11-22 01:55:03
沉睡两千万载,三门峡发现大型油田,背后功臣竟是一口寻常地热井?

沉睡两千万载,三门峡发现大型油田,背后功臣竟是一口寻常地热井?

老杉说历史
2026-01-14 19:59:18
3:1!凯恩哑火送助攻,拜仁刷新德甲半程最佳,12连胜杀人诛心

3:1!凯恩哑火送助攻,拜仁刷新德甲半程最佳,12连胜杀人诛心

阿超他的体育圈
2026-01-15 05:45:59
一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

项鹏飞
2026-01-13 18:42:53
2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

复转这些年
2026-01-08 23:43:01
高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

玛丽莲萌兔
2026-01-14 22:50:47
日本自卫队支持率飙至93.7% 创60年代以来历史峰值

日本自卫队支持率飙至93.7% 创60年代以来历史峰值

老马拉车莫少装
2026-01-12 19:17:59
伊朗和沙特淘汰后,中国U23是本届亚洲杯目前身价最高球队

伊朗和沙特淘汰后,中国U23是本届亚洲杯目前身价最高球队

懂球帝
2026-01-15 00:25:05
俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

秀秀情感课堂
2026-01-13 13:40:03
哥俩好!波尔向樊振东赠送多特蒙德马年贺岁卫衣,东哥笑得合不拢嘴

哥俩好!波尔向樊振东赠送多特蒙德马年贺岁卫衣,东哥笑得合不拢嘴

818体育
2026-01-14 20:17:06
整整180天,那个敢炮轰以色列,弹打美国航母的男人再没出现过。

整整180天,那个敢炮轰以色列,弹打美国航母的男人再没出现过。

安安说
2026-01-12 14:15:45
疯狂的9-0!1人帽子戏法+造5球,欧冠球队踢疯了强势晋级

疯狂的9-0!1人帽子戏法+造5球,欧冠球队踢疯了强势晋级

乌龙球OwnGoal
2026-01-14 09:15:47
最新排名!浙江杀到第4,辽宁第11,山东官宣第4外援,曾获篮板王

最新排名!浙江杀到第4,辽宁第11,山东官宣第4外援,曾获篮板王

老吴说体育
2026-01-15 00:21:03
国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

细说职场
2026-01-05 16:58:04
价格腰斩,又鲜又嫩,浙江人爱吃的下饭菜,可以出手了

价格腰斩,又鲜又嫩,浙江人爱吃的下饭菜,可以出手了

浙江之声
2026-01-14 10:26:31
2026-01-15 06:11:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
440文章数 14关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

旅游
艺术
亲子
健康
数码

旅游要闻

从荒地到花海:凯里用 10 年造绿,让冬日公园藏满幸福滋味!

艺术要闻

历代书家集字春联大集合

亲子要闻

章泽天的育儿观,精英的方法,普通人能用吗?

血常规3项异常,是身体警报!

数码要闻

存储涨价冲击DIY市场,DDR3主板销量意外逆势倍增

无障碍浏览 进入关怀版