新年刚至,陈天桥携手代季峰率先打响开源大模型的第一枪,正式发布其自研的旗舰版搜索智能体模型—— MiroThinker 1.5 ,堪称智能体模型领域的最强“小钢炮”。最直观的体现来自基准测试的性能评测:面对GPT‑5‑High、Gemini‑3‑Pro、DeepSeek‑V3.2等一系列国内外顶尖模型,MiroThinker 1.5在四项基准测试中表现均毫不逊色。
性能非常不错!
其实这个结果在直觉上非常的合理,如果我们需要AI通晓所有已有的知识,那为什么我们非得让它背下来?唐诗宋词的电子版在互联网上有非常多,能让AI知道搜索和呈现内容不就完了。
MiroThinker-v1.5给我的感觉就是这个,传统意义上上最核心的大模型LLM,在这套框架里面的主要作用,一个是总结,一个是判断。
对象就是数据,然后小的那个30B的模型,本身不负责产生数据,因为这个size的模型就跟人和小型生物的脑子大小一样,容量的差距太大了,没法比。
![]()
所以数据都是通过search搜索引擎来的。
PART 01
系统运行所需工具
可以看到,要想运行这么一套系统,最少只需要3类工具。分别是:
tool-python:python代码,用来创建沙盒环境,写一些小工具
search and scrape_webpage :搜索引擎,最起码得有个google serper的API
jina scrape llm_summary :jina的信息提取和总结API(前段时间刚被收购
![]()
简单理解的话,对于一个问题,它会先用python代码开启一个新的环境,然后用搜索工具搜内容,最后用内容理解来做分析和总结。
![]()
启动环境这一步,可以说是必须项,但并不产生内容。
而我的理解,就是第二步的搜索网页应该是最核心的一步,因为它决定了数据质量,如果搜出来的是垃圾,那就不可能在后续有好的结果。
PART 02
搜索引擎核心参数
在这个dev_ mcp_ servers里面找到了这个文件。
![]()
看到里面主要有两个搜索引擎在发力,第一个是google search,默认返回10条结果。
![]()
核心参数就是这8个:
q: Search query string
gl: Optional region code for search results in ISO 3166-1 alpha-2 format (e.g., 'us')
hl: Optional language code for search results in ISO 639-1 format (e.g., 'en')
location: Optional location for search results (e.g., 'SoHo, New York, United States', 'California, United States')
num: Number of results to return (default: 10)
tbs: Time-based search filter ('qdr:h' for past hour, 'qdr:d' for past day, 'qdr:w' for past week, 'qdr:m' for past month, 'qdr:y' for past year)
page: Page number of results to return (default: 1)
autocorrect: Whether to autocorrect spelling in query
看了下,最核心的应该就是q,也就是“搜索内容”,这个跟大模型的Prompt一样,甚至重要性超过Prompt。
另外还有sougou的搜索引擎使用,但是从逻辑上看,简陋了很多,接的是腾讯云的api,gl,hl,location什么的都没有。
![]()
看到这里,我觉得微调后的大模型能用起作用的应该主要是q,搜索内容,其他参数可以用python判断,也可以根据网页的元数据判断,唯有q得经过琢磨。
落到这个具体的google 搜索mcp也是一致的,唯有这个q是来自于别的地方传参。
![]()
PART 03
实际测试案例
为了验证下代码和实际产物是否匹配,我试了下这个问题。
大话西游2最适合做首发的宝宝是什么,以及理由
这是它的思考过程
用户问的是"大话西游2最适合做首发的宝宝是什么,以及理由"。这是关于游戏《大话西游2》的问题,用户想知道哪个宝宝最适合做首发(初始召唤)以及为什么。 这是一个需要搜索最新信息的问题,我需要搜索关于大话西游2首发宝宝推荐的相关内容。让我使用google_search来查找相关信息。
可以看到用的是google 搜索,结果还不错,都是相关的,但是的确时间都比较久,大多在20年前。
![]()
接下来的思考说明了,它也意识到了这个问题,然后它把时间强调在26年。
![]()
可能是数据太少,比较小众,退而求其次到2024年。
![]()
后续的几个步骤也都尽量在缩小范围,直到具体到某个召唤兽,金不换,我觉得是问题比较大的,因为到这一步的时候,搜索的q已经把《大话西游》这个最重要的词给筛掉了,而导致了各种乱七八糟的结果都出来了,有药的,有营销的,甚至还有得马赛克的。
![]()
但好在后面拉回来了,把大话西游2给加上了。
![]()
从结果来看,信源的真实度没问题,基本上都是较大的网站或者论坛的内容,但是时效性不够,大多都是1几年的,还有16年的。
![]()
当然了,我这个样本还是有点儿小众,不符合一般的测试内容,不过我最想表达的还是,数据的来源是核心。
大的大模型LLM靠自己生成不是100%靠谱,agent,比如miro这样的靠搜索引擎,其实也很难说靠谱。
但我觉得Mirothinker绝对是一个非常好的切入思路,与其在卷生卷死的大模型训练上搞,不如另辟蹊径做这种搜索类型的原生agent大模型。
小力出奇迹!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.