性能碾压谷歌！5000亿美元巨头开源最强端侧医疗AI，背后藏着一家中国企业！|百川|医学|大模型|医疗ai|知名企业

性能碾压谷歌！5000亿美元巨头开源最强端侧医疗AI，背后藏着一家中国企业！

2026-05-12 19:23:03　来源: 智药局

四川举报

分享至

一家估值超5000亿美元的币圈富豪公司，秀出了性能碾压谷歌的AI医疗大模型。

近日，以发行全球最大稳定币USDT闻名的Tether推出了AI医疗大模型QVAC MedPsy，并在多项医学推理与诊断基准测试中展现出令人意外的强大性能：

这款仅1.7B参数的轻量级模型，击败了规模大16倍的谷歌MedGemma-27B；且4B版本使用的token比主流模型少3.2倍，在降低计算成本的同时保持了较高的输出质量。

这一结果，直接挑战了AI医疗领域长期存在的“模型规模越大，效果越好”的共识，在官方技术通稿中，Tether AI团队强调，该模型更接近一种“轻量级高密度推理系统”。

不少开发者社区也对其“低参数、高性能”的组合方式给予了积极评价，认为其可能代表医疗大模型的一条新路径。

值得关注的是，Tether旗下AI团队在2024年才启动招募，成立时间极短。从其官网披露的技术说明与开源链路来看，QVAC MedPsy的训练并非完全从零开始构建，而是在多个基础模型之上进行组合式训练与优化。

进一步追溯其论文与技术报告可以发现，在封闭式医学基准测试与HealthBench评估框架中，Tether团队实际采用了来自中国公司的开源医疗大模型——百川智能的Baichuan-M3-235B作为自己的“教师模型”。

中国大模型的持久统治力

在Tether团队的内部模型筛选中，Baichuan-M3同台竞技的对手包括OpenAI的GPT-OSS-120B以及量化巨头旗下Ubiquant AI推出的Fleming-R1-32B。

而Baichuan-M3-235B在几乎所有核心评测指标上都展现出明显优势，尤其是在高复杂度医学问题上的表现，拉开了显著差距。

其中，最值得关注的是医学推理基准MedXpertQA。

这是目前业内公认难度最高的医学多选评测之一，相比传统基于USMLE题库的MedQA，它更强调复杂临床推理、多学科诊断与长链路决策能力，某种程度上，更接近顶级医院MDT（多学科会诊）场景下的真实医学判断。

在这一基准上，Baichuan-M3相比竞品取得了高达10.98分的领先优势。对于医疗AI而言，这已经不是简单的“精度提升”，而是意味着模型在复杂病情理解、诊疗逻辑组织以及医学知识调用能力上，出现了代际差异。

不仅如此，在经典大模型评测MMLU-Pro Health上，Baichuan-M3同样展现出显著领先，分别取得了+5.05 / +2.73的优势表现。

事实上，早在2026年1月首次发布时，Baichuan-M3就已经在全球权威医疗AI评测基准 HealthBench上击败GPT-5.2，并刷新当时最高纪录。更难得的是，在AI行业已经进入“月更时代”的背景下，这一优势并未随着时间迅速衰减。

具体来看，Baichuan-M3-235B相较GPT-OSS-120B领先约6至12分，相较Fleming-R1-32B领先约10至12分，并且在HealthBench全部七个维度上都维持了持续性的优势。

Tether团队对Baichuan-M3模型的评价

这种持续领先的背后，是百川在医疗强化学习体系上的长期投入。

从2025年M2开始，百川便将原本依赖患者模拟器与静态Rubric的半动态反馈机制，升级为能够随模型能力共同演化的全动态Verifier System。随着监督信号不断细化、难化，模型得以持续突破能力上限，最终让M3在复杂医学推理与医疗沟通能力上实现跃迁。

与此同时，M3还首次具备了原生“端到端”严肃问诊能力。它能够像真实医生一样主动追问、逐层逼近病因，把关键病史和风险信号一步步问出来，再基于完整信息进行深度医学推理。

这也是为什么，Tether团队并不是Baichuan-M系列模型唯一的支持者。Baichuan-M系列模型在开源社区累计获得超过150万次下载，同时受益于百川推出的「海纳百川」计划，M3 Plus API已向服务医务工作者的机构免费开放，目前已有大量团队基于该模型构建医疗应用。

甚至在今年3月OpenAI发布GPT-5.4后，仍有不少开发者在社区中呼吁，希望GPT系列与Baichuan-M3在HealthBench上展开正面对决，并质疑GPT在医疗健康领域的真实能力，是否已经被中国医疗大模型反超。

正如百川智能创始人、 CEO王小川在媒体采访中表达的：“（AI医疗）护城河核心肯定在于模型能力的绝对领先，在医疗这一严肃领域，只有领先一代的技术水平才能建立行业信任。”

重构专业医疗的“数字基建”

当大模型浪潮席卷各行各业时，真正能切入医疗AI的公司并不多，百川智能算是其中最早的一批。

早在2023年，百川智能成立后迅速跻身国内大模型赛道的前列。到了2025年，百川智能明确了“为人类造医生、为生命建模型”的核心路径，其发布的模型几乎全部围绕医疗场景和推理能力增强展开。

同年10月，百川推出首个循证增强医疗大模型Baichuan-M2 Plus，在幻觉率控制上明显优于通用大模型，降低至Deepseek的三分之一，可信度接近资深临床医生水准。

年底，百川智能发布医疗Agent平台PAPA（PlayBook Animated Proactive Agent），能够从提醒用药到动态调整健康计划，实现月度乃至年度的患者康复进程管理，真正将AI嵌入临床闭环。

随后登场的医疗大模型Baichuan-M3更一鸣惊人。在全球权威医疗评测 HealthBench 中以 65.1分登顶，首次全面超越 GPT-5.2，并刷新了医疗幻觉率最低记录。

2026年以来，医疗健康已成为AI最受重视的落地领域之一。OpenAI推出“个人超级健康助手”ChatGPT Health，谷歌发布最新开源医疗模型MedGemma 1.5，Anthropic也掏出Claude for Healthcare来抢占医疗市场。

不同于通用大模型“先做能力、再找场景”的路径，百川智能选择深耕医疗垂类，围绕临床真实需求打磨产品，持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力。

百川智能构建的“深度问诊”能力，让模型在有限对话轮次中，将临床所需问题问全、问准，其表现甚至显著高于人类医生基线。

首创的“证据锚定”技术，不仅提供引文来源，还将每一句医学结论精确映射到原始论文的对应段落，使AI的医学判断可核验、可追责、可教学，极大增强了临床可信度。

这也让百川智能在医疗AI行业进入深水区后，逐渐形成差异化优势——不仅有强大模型能力，更熟悉医院工作流，更贴近真实临床场景。

在政策支持、医院数智化升级与大模型能力突破的多重推动下，医疗AI正在进入真正的产业化周期。而提前完成垂类深耕、建立技术与场景闭环的百川智能，显然已经站在了更有利的位置。

此外，据智药局获悉，百川智能即将发布AI医疗应用产品与新一代大模型，其应用表现与技术成果值得高度期待。

—The End—

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

性能碾压谷歌！5000亿美元巨头开源最强端侧医疗AI，背后藏着一家中国企业！

宇树发布载人变形机甲，定价390万元起

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

骑士终于玩明白了？

白鹿风波升级！掉粉20万评论区沦陷

利润再腰斩 京东干外卖后就没过过好日子

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

干细胞能让人“返老还童”吗

这位女摄影师的航拍风景照片，简直太美了！

用苏绣的方式，打开江西婺源

“为你，千千万万遍”——那些让人心碎的经典文学句子大盘点

知情人士披露：美国或考虑恢复对伊朗军事行动

特朗普称将同中方讨论对台军售和黎智英案外交部回应

特朗普称将同中方讨论对台军售和黎智英案外交部回应

利润再腰斩京东干外卖后就没过过好日子

吉利银河“TT”申报图曝光电动尾翼+激光雷达