MiroThinker-1.5智能体模型，30B评测性能超越1T模型|时序|推理|可见性

MiroThinker-1.5智能体模型，30B评测性能超越1T模型

分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区，始终坚持“中立、开放、共建、共创、合作”五项基本原则，欢迎加入共同成长。

MiroMind 由全球知名创新企业家、慈善家陈天桥，与清华大学知名 AI 青年学者代季峰教授联合发起，团队曾凭借成功预测 Polymarket （全球最大的去中心化预测市场）题目，连续登顶 Future X 全球榜首。

近期，团队又率先开源搜索智能体模型——MiroThinker 1.5，该智能体模型在多个搜索智能体基准测试中跻身全球第一梯队，超过ChatGPT-Agent、Seed-1.8、DeepSeek-3.2等模型。MiroThinker 1.5已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/MiroMind/MiroThinker-v1.5-30B

01.

杰出的性能表现

MiroThinker-v1.5-30B 仅用1/30的参数规模跑出了比肩众多 1T 模型的性能表现，其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。

在BrowseComp上，位列全球第一。

BrowseComp 性能对比

在四项基准测试中的表现杰出：

HLE-Text（人类终极测试）：39.2%
BrowseComp（网页检索类大模型基准测试）：69.8%
BrowseComp-ZH（BrowseComp的中文适配版本）：71.5%
GAIA-Val-165（GAIA基准测试验证集）：80.8%

Agent 搜索评测基准性能对比

越级挑战：MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面对参数量高达 30 倍的万亿参数巨兽 Kimi-K2-Thinking，MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现：

推理成本：MiroThinker-v1.5-30B 单条调用成本低至 $0.07，仅为 Kimi-K2-Thinking 的 1/20，且推理更快。
性能表现：在关键评测集 BrowseComp-ZH 中实现性能超越，证明「大」不等于「强」。

02.

技术介绍

主流大模型往往盲目追求万亿参数，MiroThinker 系列选择了一条反共识的路线：刻意将模型控制在 30B–200B 的轻量级规模。MiroMind 团队强调，省下的不是算力，而是把算力花在了更刀刃的地方 —— 对外的信息获取与交互。当模型同时具备研究式确认机制与时序因果约束，这种围绕外部信息获取的交互过程才让“发现式智能”真正落地。这也是对 Interactive Scaling 的深耕，使他们用小得多的模型，做到了大模型才能做到的事。

MiroThinker 1.5 的核心发力点，在于通过 Interactive Scaling 打破孤立推理的僵局，将「推理」与「外部环境」深度耦合。通过构建「推理 - 验证 - 修正」循环，引入外部信息作为校验锚点，用确定性的证据流来对冲不确定性的推演，解决逻辑坍塌问题。

Training-time Interactive Scaling 技术，将交互内化进模型推理，用确定性对抗不确定性

当智能的 Scaling 范式不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理，而是依托模型高频与外部世界中探索与交互并获得闭环反馈时，小而高效的探索者模型能展现比肩于甚至超出大而严谨的思考者模型的智力水平。

MiroThinker 1.5 正是基于这一判断，将 Interactive Scaling 从推理阶段的外挂能力，前移并内化为训练阶段的核心机制。模型并非被要求「尽量在脑中想清楚一切」，而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的 Agent。

在训练过程中，MiroMind 团队刻意削弱对「单次完美推理」的奖励，转而强化以下行为模式：

Evidence-Seeking（主动求证）：模型被鼓励将每一个关键判断拆解为可验证的子假设，并主动发起对外查询、检索与比对。结论本身不再是训练目标，找到可靠证据的过程才是。缺乏信源支撑的高置信输出，会在训练中被系统性地惩罚。
Iterative Verification（多轮校验与自我修正）：推理不被视为一次性路径，而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试，一旦发现证据冲突，必须显式调整假设，而非「带着错误继续推下去」。
Anti-Hallucination（对捷径的系统性过滤）：对那些「看起来合理、但缺乏真实依据」的推理捷径保持零容忍。训练中不仅评估答案是否正确，更关注答案是如何得到的：任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径，都会被标记为低质量推理。

通过这种训练方式，MiroThinker 1.5 逐步形成了一种本能反应：在不确定性面前，先交互、再判断；在高风险结论前，先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数，而是学会在需要时，快速、精准地向外部世界借力。

时序敏感训练沙盒

时序敏感训练沙盒，是破解因果律的钥匙：普通大模型训练常处在上帝视角—— 它在数据里早已见过结果，学到的往往是复述与剧透，而不是预测。MiroThinker 的训练则约束模型只能看过去，不能看未来，在严格的时间可见性约束下做判断、再用同样受时序约束的证据去验证与更新。

可控数据合成引擎：构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的「正确答案」并非静态标签，而是随时间戳动态演化；模型必须在严格的信息可见性约束下，基于当时可获取的信息做出判断，而校验过程同样显式引入时间戳约束，以确保推演与评分均符合真实世界的时序逻辑。
时序敏感训练机制：采用严格的时间戳与信息可见性约束，彻底杜绝 Future Leakage；模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。

在这种训练范式下，模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正，而不是依赖静态数据集中的「标准答案」。时间由此从一个背景变量，转变为塑造模型行为与推理方式的核心约束，使模型更接近真实世界中的认知与决策过程

03.

模型样例

样例一: A 股涨停板预测

（注：以下仅为样例展示，不构成投资建议）

日期：12 月 10 日（周三）

对话链接：https://dr.miromind.ai/share/07430808-d84d-4e40-9615-bf07d6e71365

注解：

跃岭股份：16 只连板股，当天晋级仅 4 只，晋级率 25%，市场情绪显著退潮。MiroMind 在 8 支二板股里，精准押中唯一晋级成功的那一支。

12 月 11 日（周四）

对话链接：https://dr.miromind.ai/share/eccc29b9-889b-43f9-b6bf-f4b2b7c8dc1e

注解：

再升科技：9 只连板股，当天晋级仅 2 只，晋级率 22%，市场环境持续降温。MiroMind 命中 9 支连板股中高位晋级者 —— 退潮里选中“活口”。

样例二: GTA 6 明年能按时发布吗？

对话链接：https://dr.miromind.ai/share/10e5d1fd-c6b6-4b96-a2ed-4b776a3e1dcd

编辑：赵雅鑫

----- END -----

wisemodel相关：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.