网易首页 > 网易号 > 正文 申请入驻

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

0
分享至

MedResearcher-R1团队 投稿
量子位 | 公众号 QbitAI

不卷参数的专业模型,会不会被通用大模型取代?

医疗领域,这个疑问正在被打破。

蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告,证明了一条关键路径:专业开源模型只要做好领域化设计,有机会在垂直赛道上“以小博大”,反超通用大模型。



团队发布的医学AI智能体MedResearcher-R1,靠2100条(约2K规模)训练样本,在权威医疗基准测试MedBrowseComp上,将复杂医疗研究任务的准确回答数量提升至27.5

刷新该榜单纪录的同时,超过o3、Gemini 2.5 Pro等领先通用大模型,突破了此前25.5的业界准确回答“卡点”。



让AI学会像医学专家那样思考
研究背景

现在,基于大语言模型 (LLM) 的Agent已展现出跨越多个领域的卓越能力。

例如深度研究系统在复杂信息搜索和合成任务中就展现了高性能。但它们在医疗等专业领域容易出现不同程度的“水土不服”,面对复杂医疗查询时也常“掉链子”,核心问题就两个:

  1. 缺“专业储备”:通用模型没有密集的医疗知识,面对罕见病、多病症关联等场景,支撑不了临床推理;
  2. 缺“精准工具”:依赖公开网页搜索的通用工具,要么找不到权威医疗数据,要么被错误信息干扰,无法保障推理严谨性。

而MedResearcher-R1的突破源于数据、工具、训练方法三大核心创新。

据此,蚂蚁团队提出了知识指引下的轨迹合成框架(KISA),在12个医学专业领域生成了2100多条不同的轨迹,每条轨迹平均与4.2个工具交互,为构建“专家级AI医疗研究员”提供了全新范式

三大核心技术:不堆参数,只做 “精准突破”

MedResearcher-R1没有走“堆参数、喂海量数据”的老路,而是从“让AI学会像医学专家那样思考”出发,做了三个关键设计:

1. 主动 “造难题”:从3000万文献里炼出“4.2步推理题”

传统AI训练靠“啃现成数据”,而MedResearcher-R1学会了“自己造题”,尤其是医疗领域的“高难度研究型问题”。

研究团队先从超过3000万篇医学文献中,筛选出罕见病、特殊药理机制等“冷门但关键”的医学实体,再围绕这些实体搭建知识图谱。

最核心的一步是:从知识图谱里提取“最长推理路径”——比如“罕见遗传病→关联基因→靶向药物→代谢副作用”的多环节链条,最终生成需要平均调用4.2次工具才能解决的复杂问题。

这意味着AI训练时学的不是“翻书查答案”,而是“拆解问题、逐步验证”的专家级思维,比如面对“某罕见心脏病的用药副作用”,它会主动追溯药物机制、临床数据,而非直接套模板回答。



2. 专属“工具箱”:不囿于公开搜索,直连权威医疗数据源

通用领域Deep Research Agent的“软肋”之一,是只能依赖公开网页搜索。

在医疗场景里,未经筛选的网络公开检索信息不仅可能过时,还可能混杂非临床级数据。

MedResearcher-R1直接配备了私有化部署的医疗专用工具集:通过直接访问国际医疗指南、核心医学期刊等一手权威信源,尽可能从根源上避免“信息噪音”。

比如在回答“某药物成分”时,它会直接调取官方药品注册数据,而非依赖可能出错的公开科普;验证“药物副作用”时,会对接临床验证结果,确保每一步推理都有权威依据。

3. 不教“背诵”教“思考”:「蒙版轨迹引导(Masked Trajectory Guidance)」技术“逼”出AI的自主能力

怕AI“死记硬背”?MedResearcher-R1的训练方法直接改道而行。



研究团队用了一种“蒙版轨迹引导(Masked Trajectory Guidance)”技术:训练时只给 AI一个“推理框架”(比如“疾病→药物→副作用”的逻辑链),但隐藏关键实体信息(比如具体疾病名称、药物成分)。

这就逼着AI必须主动调用工具:查疾病指南确认病症、搜药品数据库匹配成分、验临床数据验证副作用,最终自己“拼出”完整推理链。

这种训练不是“喂答案”,而是“教方法”——最终提升了小模型的泛化能力,在面对没见过的新医疗问题,也能像人类研究员一样自主拆解、验证。

举个具体例子:当被问及“某药物的活性成分(需满足质数剂量、受体拮抗机制等多条件)”时,通用AI通常会根据各种公开信息进行全面整理给出不同答案;

而MedResearcher-R1会先查企业史锁定药企,再调取药物信息,接着验证成分的化学结构与受体机制,最后确认副作用 ——整套流程复刻人类医学研究员的工作逻辑,最终给出具体药物名称。

既要追求专业,还要“不偏科”

更值得注意的是,蚂蚁还在攻克其专业模型的 “通用研究能力”提升,试图打破“专业模型只能干一行”的刻板印象。

从GAIA、xBench等通用AI助手基准测试结果来看,MedResearcher-R1的表现也保持业界前列,初步验证小规模模型可以同时兼具“领域深度”和“通用广度”,避免因为“专精医疗”而变成“偏科生”。

MedResearcher-R1等专业模型发展的意义,不在于一次次测试结果,而是验证另一种可能性:在医疗、法律、工业等专业领域,“参数规模”不是唯一解药,“Agentic Data”才是破局关键——通过精准的数据源搭建、专用工具开发、创新训练方法,小规模模型有机会能啃下硬骨头。

在容错率极低的医疗领域,专业模型仍然需要不断提升可解释性、合规性等,这也是行业未来面临的共同挑战。

目前,研究团队已宣布将MedResearcher-R1的代码和数据集开源,希望在推动全球研究者在该领域的协同创新,加速开发能够辅助人类专家、提升医疗研究效率与质量的下一代AI工具。

感兴趣的朋友可通过官网链接直接体验。

官网链接:https://chat.antaq.com/
报告地址:https://arxiv.org/abs/2508.14880

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

人閒情事
2026-01-16 16:18:36
随着辽宁+山西险胜!深圳惨败29分!CBA积分榜大变,前3稳如泰山

随着辽宁+山西险胜!深圳惨败29分!CBA积分榜大变,前3稳如泰山

老吴说体育
2026-01-17 00:03:45
破纪录也要签!曼联重拾亿元目标 价格或超博格巴

破纪录也要签!曼联重拾亿元目标 价格或超博格巴

澜归序
2026-01-17 02:04:12
太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

小娱乐悠悠
2026-01-16 09:20:08
美女爆释永信猛料!姐妹住少林寺三天两晚,凌晨众人汇聚他的禅房

美女爆释永信猛料!姐妹住少林寺三天两晚,凌晨众人汇聚他的禅房

小涛叨叨
2026-01-09 16:43:27
马蓉深夜发文叹遗憾:一手好牌打稀烂,谁还能给她回头的机会?

马蓉深夜发文叹遗憾:一手好牌打稀烂,谁还能给她回头的机会?

草莓解说体育
2026-01-17 01:40:02
广东省启动2026年独生子女奖励:发放标准、条件、材料,看看!

广东省启动2026年独生子女奖励:发放标准、条件、材料,看看!

虎哥闲聊
2026-01-16 09:06:17
“装死”小羊身价飙至30万,专家:“装死”非“演技”在线,系因遗传缺陷,可以人工繁殖更多只

“装死”小羊身价飙至30万,专家:“装死”非“演技”在线,系因遗传缺陷,可以人工繁殖更多只

极目新闻
2026-01-16 11:05:37
日本5-3大胜越南3-2绝杀,U23亚洲杯四强西亚团灭

日本5-3大胜越南3-2绝杀,U23亚洲杯四强西亚团灭

五姑娘说体育
2026-01-17 03:34:47
山东92岁老人“煤球渣补桥”引关注,村民称村上已开始修补;街办:已向上级打报告申请修缮

山东92岁老人“煤球渣补桥”引关注,村民称村上已开始修补;街办:已向上级打报告申请修缮

大风新闻
2026-01-16 11:55:14
美通告全球中方大幅抛售美债,特朗普打算动手,八国央行对美宣战

美通告全球中方大幅抛售美债,特朗普打算动手,八国央行对美宣战

墨兰史书
2026-01-16 15:25:03
特朗普暂缓对伊朗动武决定,日前伊朗播放特朗普2024年险遭暗杀片段,并配文“这一次,子弹不会飞偏”

特朗普暂缓对伊朗动武决定,日前伊朗播放特朗普2024年险遭暗杀片段,并配文“这一次,子弹不会飞偏”

每日经济新闻
2026-01-16 10:34:11
深圳交警创新“链路式”执法,被拦车主将无处逃跑

深圳交警创新“链路式”执法,被拦车主将无处逃跑

映射生活的身影
2026-01-16 22:32:51
太可怜了!云南4年级女孩穿着单衣瑟瑟发抖上学,老师出手暖人心

太可怜了!云南4年级女孩穿着单衣瑟瑟发抖上学,老师出手暖人心

火山诗话
2026-01-16 06:28:40
中俄弃权的背后

中俄弃权的背后

新民晚报
2026-01-16 09:45:54
网红凤姐近况曝光!发文称白人医生建议她切除子宫,以预防癌变

网红凤姐近况曝光!发文称白人医生建议她切除子宫,以预防癌变

小徐讲八卦
2026-01-15 15:03:33
婆婆住我们家,接来妈妈后,婆婆走了,没想到三个月后我追悔莫及

婆婆住我们家,接来妈妈后,婆婆走了,没想到三个月后我追悔莫及

朝暮书屋
2025-11-18 18:08:25
四问今年首场大范围寒潮:雨雪冰冻降温有多强 影响持续多久?

四问今年首场大范围寒潮:雨雪冰冻降温有多强 影响持续多久?

北青网-北京青年报
2026-01-16 17:02:56
贺娇龙离世前聊天记录曝光,年入900万,本可以躺赢!47岁仍爱折腾

贺娇龙离世前聊天记录曝光,年入900万,本可以躺赢!47岁仍爱折腾

有范又有料
2026-01-16 10:09:20
双色球、大乐透将变更游戏规则,有何不同?变更后中奖更容易吗?

双色球、大乐透将变更游戏规则,有何不同?变更后中奖更容易吗?

之乎者也小鱼儿
2026-01-16 23:31:42
2026-01-17 05:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176360关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

艺术
家居
房产
时尚
数码

艺术要闻

180米!上海北外滩新地标,设计藏了3个“小心机”

家居要闻

岁月柔情 现代品质轻奢

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

数码要闻

熊猫MX34U7 34英寸带鱼屏显示器发布,售价1299元

无障碍浏览 进入关怀版