网易首页 > 网易号 > 正文 申请入驻

2026开年王炸模型MiroThinker 1.5实测:谷歌没做到的被它做到了

0
分享至



作为一个每天需要处理海量信息的自媒体从业者,我最近有一种深深的疲惫感。

我们原本以为AI是解药,但现在LLM它们给我的感觉更像一个技艺高超的速记员,你问它任何问题,它都能秒回,文笔流畅,逻辑看似通顺。但当你去核实细节时,往往会发现它在一本正经地胡说八道,要么给的全是我愿称为“失焦”的流水账式的内容,你说错吧,倒是全是正确的废话,包括ChatGPT 和 Gemini的深度研究功能

在投资决策、深度写作、技术调研这些容错率极低的场景下,“大概率正确”=“不可用”。

我们需要的不只是一个会说话的AI,而是一个严谨的科学家。它应该是不自信的,是多疑的,是在开口回答之前,先去翻阅成百上千份资料,交叉验证后才敢下结论的。

最近,我在 GitHub上发现了一个名为 MiroThinker 的开源深度研究项目,这个项目最近发布了 1.5 版本,此前曾凭借成功预测 Polymarket 题目,连续登顶 Future X全球榜首,力压诸多国际顶尖机构和闭源商业模型,堪称2026年开年智能体领域的”黑马“模型,仅使用 300 亿(30B)个参数即可实现与万亿参数模型相当的性能。

它的思路让我眼前一亮:它不拼参数规模,而是把技能点全点在了去伪存真上,这点很打动我,我抱着试一试的态度去体验了一下,说实话还真有点东西,可以说完全超出了我的预期

废话不多说,看我的实测

地址在这:

https://dr.miromind.ai/

实测

打开MiroThinker界面长这样:



先小试牛刀,我抛出了一个争议且没有标准答案的问题。请看MiroThinker是如何一步步拆解的:

2026年人类会实现AGI吗?如果会,是那家公司会率先宣布实现AGI,为什么

直接放结论:



在这个case中,MiroThinker 并没有简单地罗列新闻,而是进行了多轮检索、交叉验证、定义对齐,最终给出了一个基于概率的判断,整个思考过程全部摊开给你看,你能清楚看到模型在做什么,层层递进,逻辑严密

我们来拆解一下

1:结构化拆解



MiroThinker它像一个严谨的分析师,先把问题拆解成了三个具体的求证方向:

  1. 1. 学术界和预测市场怎么看?(宏观概率)
  2. 2. OpenAI、xAI、Google的具体路线图是什么?(微观证据)
  3. 3. 现在的技术基准分是多少?(客观现状)

2:饱和式广度检索



注意看它的搜索路径,它不是只搜了一次

为了回答这一个问题,它自主进行了近10轮的深度检索

它不仅看了通用的新闻,还去翻阅了斯坦福的专家报告、Metaculus预测市场数据、甚至是由于OpenAI内部泄露的研究员路线图

这种“不把底朝天不罢休”的检索深度,确保了它掌握的信息比大多数人类研究员还要全面

3:对抗性交叉验证







这是最显功力的地方——去伪存真

它检索到了马斯克说“2026年实现”,但它没有轻信,而是立刻找来“现有技术自动化率仅2.5%”和“长期记忆得分为0”的硬数据进行对冲

它通过对比由于商业利益驱动的公关话术和冷冰冰的技术指标,最终判断:

2026实现概率低于(20-30%)。 它没有顺着热点炒作,而是帮你回归理性

4:基于证据链的精准推演



看这个结论,太犀利了

它没有止步于可能与不可能,而是给出了极具洞察的推演:如果2026年真的有人宣布AGI,大概率是马斯克的xAI

为什么?因为它分析了各家的行事风格和行业最新现状——OpenAI更谨慎(目标定在2028),而xAI有最激进的资本投入和马斯克的个人风格

这不再是简单的搜索总结,这是有逻辑、有观点的深度研报

以上过程回放:

https://dr.miromind.ai/share/9c9efccf-77ff-4dbc-91c7-bac1695f904c

刚才只是小试牛刀,现在我给它抛出了两个充满噪声的真实难题

场景一:在满天飞的消息中,寻找确定性(财经/决策场景)

注意以下仅为技术展示,不构成投资金建议

  • 实测case:假设我有10万闲钱,想在当前A股环境下做一个月的短线。请基于最新的货币政策、市场情绪和资金流向,帮我梳理出风险与机会,并给出证据链

这个场景是金融领域最复杂的“预测+决策”问题。如果问普通AI,它大概率会给我生成一段万金油式的“股市有风险,投资需谨慎”,再加上几句正确的废话



这是一个最让AI头疼的问题:既要有宏观视野,又要落实到具体操作,还不能说假话

看看 MiroThinker 是怎么交卷的:

1:拒绝模棱两可,直接锁定核心矛盾





MiroThinker 直接抓住了当前A股的核心矛盾:央行适度宽松的定调 vs 两融余额创历史新高的杠杆风险

它在回答前就明确了:现在不是底部捡便宜,而是高位强势期,策略必须变。

2:像情报官一样挖掘“真金白银”的动向



嘴上说的不算,真金白银才是诚实的。MiroThinker 不仅看新闻,还去扒了龙虎榜和ETF资金流向它发现虽然大盘在涨,但资金在疯狂加杠杆(两融创新高),同时外资在扫货半导体和有色

3:政策穿透力





A股是政策市。MiroThinker 展现了强大的政策穿透力。它敏锐地捕捉到了工信部《有色金属行业稳增长工作方案》和国家航天局的行动计划

它告诉你:为什么这两个板块能涨?因为国家在后面推。这种逻辑归因,比单纯看K线靠谱得多

4:给出可执行的“仓位配方”



给了一套风控模型

  • • 40%买保险/高股息做防守;
  • • 40%做有色/顺周期吃波段;
  • • 20%玩科技/题材博弹性。

这哪里是AI,这简直是一个老练的基金经理在手把手教你配置资产

5:严谨的风险提示(不是免责声明)



它没有一味唱多。它明确警告:半导体市盈率百分位95%+,容错率极低。这种冷静的泼冷水,在牛市氛围中价值千金。它是在保护你的本金。

它没给我财富密码,但它帮我穿透了噪声。它像一个冷静的分析师,帮我把情绪剥离,只看证据

回放:

https://dr.miromind.ai/share/78e5d0a0-2053-4557-b841-4b0d5b06b530

场景二:内容查证场景,对抗“标题党”的终极测试

实测case:“我是一个每天习惯喝 3 罐无糖可乐的上班族。我看新闻说世卫组织(WHO)把阿斯巴甜列为了‘致癌物’,搞得我很焦虑

请帮我查证:

  1. 1. WHO 原始报告中关于‘致癌剂量’的具体定义是什么?
  2. 2. FDA 或 JECFA(食品添加剂专家委员会)对此持什么态度?
  3. 3. 基于我的饮用量(每天3罐),我真的面临显著的致癌风险吗?请用数据说话,不要给我模棱两可的建议。”

这个例子展示了MiroThinker强大的信息查证、概念辨析和数据计算能力



第一步:概念辨析——不仅是搜新闻,更是读懂新闻



面对“阿斯巴甜致癌”的全网恐慌,MiroThinker 没有跟风营销号

它第一步就做出了关键的概念切割:

IARC(国际癌症研究机构):只负责贴标签(有没有可能致癌),不负责谈剂量。它列为 2B 类只代表“证据有限”,连泡菜和手机辐射都在这个类别里

JECFA(食品添加剂专家委员会):才是负责定“安全标准”的。

这一步“定义校准”,直接把 90% 的无效焦虑过滤掉了

第二步:数据计算——拒绝模糊建议,直接上算术题





普通的 AI 可能会说:“建议您适量饮用”。什么叫适量?MiroThinker 拒绝废话,直接运行python程序:

  • • 设定你的体重
  • • 设定每罐可乐的阿斯巴甜含量(200mg)。
  • • 对比 JECFA 的安全标准(40mg/kg)。

计算结果一目了然:你每天摄入 600mg,而安全上限是 2800mg。

它用数据告诉你:你目前只用掉了 21% 的“安全额度”

第三步:权威信源——FDA 的“硬刚”态度



为了让你彻底放心,它还引入了“第三方证人”

它查到了 FDA(美国食品药品监督管理局)的官方声明,FDA 不仅维持了更宽松的标准(50mg/kg),甚至直接公开反对IARC 的分类结论

第四步:终极结论——给焦虑画上句号



最后,它给出了一个不含糊的结论:

基于现有最权威的证据,你每天 3 罐的习惯,在癌症风险上不属于‘显著危险’。”

看到这里,我手里的无糖可乐瞬间更香了

回放:

https://dr.miromind.ai/share/e45955fa-5c5e-462a-a93f-9b493cd606ae

在这个案例中,MiroThinker 展现的不是聊天能力,而是调查记者+数据分析师的能力。它不生产情绪,它只负责用严谨的逻辑和数据,把真相还给你

我把同样的问题抛给了ChatGPT 深度研究,用时半小时,给我的报告我简直读不下去

我把ChatGPT结论贴出来,大家看看,还是像流水账一样的东西,前面一段很官方的叙述,感觉不到是在替你解决问题,解决困惑,严重缺乏MiroThinker那种逻辑严密层层递进的分析最后得出严谨的结论的感觉





以上就是我的测试

MiroThinker 1.5的背后的技术

MiroThinker 1.5 的出现,揭示了一个被行业忽视的真相:大模型的未来,或许不在于把脑子练得更“重”,而在于把手练得更“勤”

底层哲学的质变:从“做题家”到“科学家”

传统大模型(做题家模式):

目前的 Scaling Law(缩放定律)本质上是在培养“做题家”。它们试图把全人类的知识(包括错误和噪声)通过死记硬背塞进万亿参数里

弊端:一旦遇到生物学、前沿科技等训练集里没有的未知问题,它们就会基于概率分布“编”一个看似合理的答案——这就是幻觉的根源。

MiroThinker(科学家模式):

MiroThinker 1.5 放弃了全知全能的幻想,转而拥抱“发现式智能”

核心:它被训练成一个严谨的科学家。遇到难题,它的第一反应不是瞎猜,而是执行一个慢思考的研究闭环:提出假设 → 向外部世界查证 → 发现矛盾 → 修正假设 → 再查证 → 直到证据收敛。

结论:智能的增长不再依赖内部参数的无限膨胀,而是依赖外部交互(Interactive Scaling)的深度与广度。

核心黑科技:Training-time Interactive Scaling(训练时交互扩展)

许多“搜索AI”只是在模型外面挂了一个搜索插件,而 MiroThinker 1.5 将交互内化为了模型的本能

在 v1.5 的训练阶段,团队引入了一套残酷的奖惩机制,彻底改变了模型的行为逻辑:

Evidence-Seeking(主动求证本能):

模型不再被奖励“直接给出答案”,而是被奖励“把问题拆解并找到证据”。如果模型给出了一个高置信度的结论却缺乏信源支撑,它在训练中会受到系统性的惩罚。

Iterative Verification(自我否定与修正):

它打破了传统思维链(CoT)的线性逻辑。传统模型一旦第一步推错了,后面就会步步错(逻辑坍塌)。而 MiroThinker 被训练成允许“反复横跳”——在交互中发现证据冲突时,必须显式地否定自己之前的假设,并修正路径。

Anti-Hallucination(反幻觉机制):

系统性过滤“捷径”。如果模型试图通过记忆或统计概率来猜答案(偷懒),而不是去查证,会被标记为低质量推理。

结果:MiroThinker 1.5 不需要把整个互联网背在脑子里(所以参数只有 30B-235B),它学会了在需要的时候,快速、精准地向外部世界“借力”。

破解“上帝视角”:时序敏感训练沙盒 (Time-Sensitive Training Sandbox)

为什么很多 AI 预测未来不仅不准,还经常“穿越”?因为它们在训练时开了“上帝视角”——它们在学历史数据时,已经看过了“未来的答案”。

MiroThinker 构建了一个严格受控的时序沙盒

拒绝剧透:训练时,模型被强制戴上了“时间枷锁”。当它回答一个 2023 年的问题时,系统严禁它访问 2024 年的信息

动态真理:每一道题的“正确答案”不再是静态的,而是随着时间戳动态演化的。

因果律约束:这迫使模型必须在信息不完备、充满噪声的真实环境下,像人类一样去推演未来,而不是简单地复述历史。

MiroThinker 1.5 证明了“高智效比”才是 AI 的未来。它不追求拥有一个最重的脑子(万亿参数),而是培养了一双最勤快的手(高频交互)

这也是他为什么它能用极低的推理成本($0.07),跑出比肩巨型模型的实战效果

就我的体验来说,MiroThinker 1.5它的思考的过程和给出的结论都非常像人类,你能真实的感受它是给人看的,它或许不能直接给我财富密码,但它给了我一种在复杂世界里保持理性、抓住重点的方法论,且它的效率比人类高出非常多,目前无论是GPT-5,Gemini,Claude ,还是DeepSeek的智能目前都表现出为一种锯齿状智能,MiroThinker 1.5本身的定位是拥抱发现式智能,也许这是解决问题的可行的路径

体验网站:

https://dr.miromind.ai/

Github代码地址:

https://github.com/MiroMindAI/MiroThinker

MiroFlow开源框架:

https://github.com/MiroMindAI/MiroFlow

Hugging Face模型下载:

https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

军机Talk
2026-03-25 17:17:57
防爆气象站设备:防爆生产知识科普

防爆气象站设备:防爆生产知识科普

柏峰气象环境监测站
2026-03-26 08:35:06
盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

吃瓜党二号头目
2026-03-26 14:55:08
微信出现这条杠,你已经不是对方好友了

微信出现这条杠,你已经不是对方好友了

王二哥老搞笑
2026-03-21 07:36:51
阚清子产后现身机场!手上鸽子蛋大钻戒抢镜,富豪老公拎包似保姆

阚清子产后现身机场!手上鸽子蛋大钻戒抢镜,富豪老公拎包似保姆

老好人的愤怒
2026-03-26 18:02:04
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
伊朗称美以袭击伊斯法罕理工大学校内建筑

伊朗称美以袭击伊斯法罕理工大学校内建筑

财联社
2026-03-26 17:58:06
过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

谈史论天地
2026-03-26 07:56:52
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

黑鹰观军事
2026-03-25 17:12:13
看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

孤云朗境
2026-03-06 20:43:36
日媒:巴基斯坦正成为美伊冲突主要调解方

日媒:巴基斯坦正成为美伊冲突主要调解方

参考消息
2026-03-25 15:23:26
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
中美情况有变,特朗普民调崩了,奥托尔巴耶夫出山,美国衰落已定

中美情况有变,特朗普民调崩了,奥托尔巴耶夫出山,美国衰落已定

一口娱乐
2026-03-26 18:11:38
大众中国回应斯柯达退出中国市场

大众中国回应斯柯达退出中国市场

澎湃新闻
2026-03-26 17:33:03
缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

椰黄娱乐
2026-03-24 11:36:57
电动车逆行被撞身亡,家属索赔120万,法院判司机担责40%引热议!

电动车逆行被撞身亡,家属索赔120万,法院判司机担责40%引热议!

渔夫说事
2026-03-25 16:35:06
伊朗伊斯兰革命卫队海军指挥官遇袭身亡

伊朗伊斯兰革命卫队海军指挥官遇袭身亡

北青网-北京青年报
2026-03-26 17:43:04
不装了!冯德莱恩承认:拒绝俄天然气很痛苦,欧盟被迫一夜间放弃

不装了!冯德莱恩承认:拒绝俄天然气很痛苦,欧盟被迫一夜间放弃

万国明信片
2026-03-25 16:16:12
2026-03-26 21:20:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
房产
亲子
艺术
军事航空

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

孩子模仿这种行为,容易被坏人盯上!

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版