一家估值超5000亿美元的币圈富豪公司,秀出了性能碾压谷歌的AI医疗大模型。
近日,以发行全球最大稳定币USDT闻名的Tether推出了AI医疗大模型QVAC MedPsy,并在多项医学推理与诊断基准测试中展现出令人意外的强大性能:
这款仅1.7B参数的轻量级模型,击败了规模大16倍的谷歌MedGemma-27B;且4B版本使用的token比主流模型少3.2倍,在降低计算成本的同时保持了较高的输出质量。
这一结果,直接挑战了AI医疗领域长期存在的“模型规模越大,效果越好”的共识,在官方技术通稿中,Tether AI团队强调,该模型更接近一种“轻量级高密度推理系统”。
![]()
不少开发者社区也对其“低参数、高性能”的组合方式给予了积极评价,认为其可能代表医疗大模型的一条新路径。
值得关注的是,Tether旗下AI团队在2024年才启动招募,成立时间极短。从其官网披露的技术说明与开源链路来看,QVAC MedPsy的训练并非完全从零开始构建,而是在多个基础模型之上进行组合式训练与优化。
![]()
进一步追溯其论文与技术报告可以发现,在封闭式医学基准测试与HealthBench评估框架中,Tether团队实际采用了来自中国公司的开源医疗大模型——百川智能的Baichuan-M3-235B作为自己的“教师模型”。
![]()
中国大模型的持久统治力
在Tether团队的内部模型筛选中,Baichuan-M3同台竞技的对手包括OpenAI的GPT-OSS-120B以及量化巨头旗下Ubiquant AI推出的Fleming-R1-32B。
而Baichuan-M3-235B在几乎所有核心评测指标上都展现出明显优势,尤其是在高复杂度医学问题上的表现,拉开了显著差距。
其中,最值得关注的是医学推理基准MedXpertQA。
这是目前业内公认难度最高的医学多选评测之一,相比传统基于USMLE题库的MedQA,它更强调复杂临床推理、多学科诊断与长链路决策能力,某种程度上,更接近顶级医院MDT(多学科会诊)场景下的真实医学判断。
在这一基准上,Baichuan-M3相比竞品取得了高达10.98分的领先优势。对于医疗AI而言,这已经不是简单的“精度提升”,而是意味着模型在复杂病情理解、诊疗逻辑组织以及医学知识调用能力上,出现了代际差异。
不仅如此,在经典大模型评测MMLU-Pro Health上,Baichuan-M3同样展现出显著领先,分别取得了+5.05 / +2.73的优势表现。
事实上,早在2026年1月首次发布时,Baichuan-M3就已经在全球权威医疗AI评测基准 HealthBench上击败GPT-5.2,并刷新当时最高纪录。更难得的是,在AI行业已经进入“月更时代”的背景下,这一优势并未随着时间迅速衰减。
具体来看,Baichuan-M3-235B相较GPT-OSS-120B领先约6至12分,相较Fleming-R1-32B领先约10至12分,并且在HealthBench全部七个维度上都维持了持续性的优势。
![]()
Tether团队对Baichuan-M3模型的评价
这种持续领先的背后,是百川在医疗强化学习体系上的长期投入。
从2025年M2开始,百川便将原本依赖患者模拟器与静态Rubric的半动态反馈机制,升级为能够随模型能力共同演化的全动态Verifier System。随着监督信号不断细化、难化,模型得以持续突破能力上限,最终让M3在复杂医学推理与医疗沟通能力上实现跃迁。
与此同时,M3还首次具备了原生“端到端”严肃问诊能力。它能够像真实医生一样主动追问、逐层逼近病因,把关键病史和风险信号一步步问出来,再基于完整信息进行深度医学推理。
这也是为什么,Tether团队并不是Baichuan-M系列模型唯一的支持者。Baichuan-M系列模型在开源社区累计获得超过150万次下载,同时受益于百川推出的「海纳百川」计划,M3 Plus API已向服务医务工作者的机构免费开放,目前已有大量团队基于该模型构建医疗应用。
甚至在今年3月OpenAI发布GPT-5.4后,仍有不少开发者在社区中呼吁,希望GPT系列与Baichuan-M3在HealthBench上展开正面对决,并质疑GPT在医疗健康领域的真实能力,是否已经被中国医疗大模型反超。
![]()
正如百川智能创始人、 CEO王小川在媒体采访中表达的:“(AI医疗)护城河核心肯定在于模型能力的绝对领先,在医疗这一严肃领域,只有领先一代的技术水平才能建立行业信任 。”
![]()
重构专业医疗的“数字基建”
当大模型浪潮席卷各行各业时,真正能切入医疗AI的公司并不多,百川智能算是其中最早的一批。
早在2023年,百川智能成立后迅速跻身国内大模型赛道的前列。到了2025年,百川智能明确了“为人类造医生、为生命建模型”的核心路径,其发布的模型几乎全部围绕医疗场景和推理能力增强展开。
同年10月,百川推出首个循证增强医疗大模型Baichuan-M2 Plus,在幻觉率控制上明显优于通用大模型,降低至Deepseek的三分之一,可信度接近资深临床医生水准。
年底,百川智能发布医疗Agent平台PAPA(PlayBook Animated Proactive Agent),能够从提醒用药到动态调整健康计划,实现月度乃至年度的患者康复进程管理,真正将AI嵌入临床闭环。
随后登场的医疗大模型Baichuan-M3更一鸣惊人。在全球权威医疗评测 HealthBench 中以 65.1分 登顶,首次全面超越 GPT-5.2,并刷新了医疗幻觉率最低记录。
2026年以来,医疗健康已成为AI最受重视的落地领域之一。OpenAI推出“个人超级健康助手”ChatGPT Health,谷歌发布最新开源医疗模型MedGemma 1.5,Anthropic也掏出Claude for Healthcare来抢占医疗市场。
不同于通用大模型“先做能力、再找场景”的路径,百川智能选择深耕医疗垂类,围绕临床真实需求打磨产品,持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力。
百川智能构建的“深度问诊”能力,让模型在有限对话轮次中,将临床所需问题问全、问准,其表现甚至显著高于人类医生基线。
首创的“证据锚定”技术,不仅提供引文来源,还将每一句医学结论精确映射到原始论文的对应段落,使AI的医学判断可核验、可追责、可教学,极大增强了临床可信度。
这也让百川智能在医疗AI行业进入深水区后,逐渐形成差异化优势——不仅有强大模型能力,更熟悉医院工作流,更贴近真实临床场景。
在政策支持、医院数智化升级与大模型能力突破的多重推动下,医疗AI正在进入真正的产业化周期。而提前完成垂类深耕、建立技术与场景闭环的百川智能,显然已经站在了更有利的位置。
此外,据智药局获悉,百川智能即将发布AI医疗应用产品与新一代大模型,其应用表现与技术成果值得高度期待。
—The End—
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.