「Claude在可解问题上已与人类专家持平。」Anthropic这份新基准测试的结论是,但数据背后藏着更复杂的真相——30%的超高难度成功率,与五轮测试中要么全对要么全错的极端波动,指向同一个问题:AI的"专家级"表现,和人类理解的"专家级",可能根本不是一回事。
为什么生物信息学成了AI评测的硬骨头
![]()
测AI懂不懂生物,比想象中难得多。
Anthropic在论文里吐槽了一圈现有基准的盲区。知识类测试比如MMLU-Pro或GPQA,考的是死记硬背,不是实战技能。用真实数据集跑的BixBench,让模型跟个别科学家的结论比——但科学家的结论本身就带主观性,方法选得不一样,答案可能完全不同。至于SciGym那种模拟实验室环境,答案倒是明确,却过滤掉了真实生物数据里那股"混乱劲儿"。
真实研究是什么画风?数据 noisy(嘈杂)、信号微弱、工具链复杂,还得在NCBI、Ensembl这些数据库里翻来翻去。现有基准要么太干净,要么太主观,要么太理论。
这是Anthropic做BioMysteryBench的出发点。
99道题的设计心机:让答案" objectively verifiable "
这套题库的核心设计很巧妙——答案不来自科学解释,而来自数据本身的可控属性,或独立验证过的元数据。
每道题的作者必须提交一个验证笔记本,证明信号确实存在于数据中。这种做法绕开了"科学家怎么说"的主观陷阱,也让出题范围扩展到人类可能解不了的领域。
具体任务长什么样?比如给你一份单细胞RNA测序数据,问这是哪个器官的组织;或者给你实验样本,让你推断哪个基因被敲除了。Claude拿到的是一个容器环境,内置生物信息学工具,能访问NCBI、Ensembl等数据库,分析方法完全自主。只判最终答案,不管过程。
99道题横跨多个生物信息学子领域,由领域专家撰写,基于真实且嘈杂的数据集。
时间线:从76道"人类可解"到23道"全员阵亡"
Anthropic把题目分成两批测试。
第一批76道,定义为"人类可解"——至少有一位专家(最多五位参与)找到了正确答案。第二批23道,五位专家全军覆没。还有4道题因为表述缺陷被剔除。
对于那23道难题,Anthropic自己也不确定:是本质上无解,还是只是极难?换一批专家,或者更多专家,能不能解出来?这仍是开放问题。
结果层面,Claude在可解问题上与人类专家持平——这是Anthropic的 headline 结论。但在那23道难题上,Claude Mythos Preview 达到了30%的成功率。
表面看,AI超越了人类专家。但一致性分析泼了冷水。
五轮测试暴露的"运气成分"
Anthropic让Claude Mythos Preview每道题跑五遍。结果呈现两极分化:
可解问题上,Claude几乎要么五轮全对,要么五轮全错。难题上,成功通常只出现在一两轮里。
这说明什么?模型不是靠可复现的策略解题,而是偶尔"撞"到一条幸运路径。30%的成功率背后,不是稳定的专家级能力,是概率性的摸索。
Anthropic分析了Claude区别于人类测试者的两个策略:一是调用广博的知识库,二是将信息与正在进行的分析直接结合。但当环境复杂度超过某个阈值,这种"边查边做"的模式就变成了抽奖。
这对AI产品化意味着什么
从产品经理视角看,BioMysteryBench的设计本身比结果更值得琢磨。
它解决了一个长期痛点:如何验证AI在开放域、工具依赖型任务上的真实能力。不是考知识,不是比速度,是给你脏数据、真工具、模糊目标,看你能不能端到端地交付。
这种评测思路对科研自动化、临床决策支持、药物研发等场景有直接参考价值。如果AI要在这些领域从"辅助工具"升级为"独立代理",BioMysteryBench式的压力测试是必经之路。
但五轮测试的波动数据也敲了警钟。产品化时,"30%成功率"和"五轮中偶尔成功一次"是截然不同的用户体验。前者可能支撑一个"专家级第二意见"产品,后者只能做"探索性灵感生成器"。
Anthropic没有回避这个 nuance,反而在论文里主动披露。这种透明对行业是好事——它划清了"演示级能力"和"生产级可靠性"的边界。
下一步该关注什么
23道难题的"本质无解还是极难解"之问,短期内不会有答案。但几个方向已经清晰:
第一,一致性。如果五轮测试的方差能压下来,30%可以变成可预期的30%,产品形态会完全不同。
第二,工具链。Claude目前被允许自由调用生物信息学工具和数据库,但工具本身的可靠性、API稳定性、数据版本漂移,都是真实部署时的隐藏成本。
第三,人机协作界面。既然AI和人类在难题上各有盲区,如何设计工作流让两者互补,比追求"全面超越人类"更务实。
Anthropic把验证笔记本作为题目准入门槛的做法,也值得其他垂直领域借鉴。它建立了一种可审计的、社区可复现的质量控制机制,比"我们相信专家"更经得起推敲。
Claude在生物信息学上的这步棋,表面是秀肌肉,实际是投石问路。99道题测出的不只是模型能力,更是一套评测方法论的可行性。对于盯着科研自动化赛道的创业者和产品经理,这份基准的含金量在于:它证明了端到端、真实数据、客观验证的评测是可以落地的,也暴露了当前技术栈在可靠性上的真实水位。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.