网易首页 > 网易号 > 正文 申请入驻

Anthropic用99道题测出Claude的生物信息学水平

0
分享至

「Claude在可解问题上已与人类专家持平。」Anthropic这份新基准测试的结论是,但数据背后藏着更复杂的真相——30%的超高难度成功率,与五轮测试中要么全对要么全错的极端波动,指向同一个问题:AI的"专家级"表现,和人类理解的"专家级",可能根本不是一回事。

为什么生物信息学成了AI评测的硬骨头


测AI懂不懂生物,比想象中难得多。

Anthropic在论文里吐槽了一圈现有基准的盲区。知识类测试比如MMLU-Pro或GPQA,考的是死记硬背,不是实战技能。用真实数据集跑的BixBench,让模型跟个别科学家的结论比——但科学家的结论本身就带主观性,方法选得不一样,答案可能完全不同。至于SciGym那种模拟实验室环境,答案倒是明确,却过滤掉了真实生物数据里那股"混乱劲儿"。

真实研究是什么画风?数据 noisy(嘈杂)、信号微弱、工具链复杂,还得在NCBI、Ensembl这些数据库里翻来翻去。现有基准要么太干净,要么太主观,要么太理论。

这是Anthropic做BioMysteryBench的出发点。

99道题的设计心机:让答案" objectively verifiable "

这套题库的核心设计很巧妙——答案不来自科学解释,而来自数据本身的可控属性,或独立验证过的元数据。

每道题的作者必须提交一个验证笔记本,证明信号确实存在于数据中。这种做法绕开了"科学家怎么说"的主观陷阱,也让出题范围扩展到人类可能解不了的领域。

具体任务长什么样?比如给你一份单细胞RNA测序数据,问这是哪个器官的组织;或者给你实验样本,让你推断哪个基因被敲除了。Claude拿到的是一个容器环境,内置生物信息学工具,能访问NCBI、Ensembl等数据库,分析方法完全自主。只判最终答案,不管过程。

99道题横跨多个生物信息学子领域,由领域专家撰写,基于真实且嘈杂的数据集。

时间线:从76道"人类可解"到23道"全员阵亡"

Anthropic把题目分成两批测试。

第一批76道,定义为"人类可解"——至少有一位专家(最多五位参与)找到了正确答案。第二批23道,五位专家全军覆没。还有4道题因为表述缺陷被剔除。

对于那23道难题,Anthropic自己也不确定:是本质上无解,还是只是极难?换一批专家,或者更多专家,能不能解出来?这仍是开放问题。

结果层面,Claude在可解问题上与人类专家持平——这是Anthropic的 headline 结论。但在那23道难题上,Claude Mythos Preview 达到了30%的成功率。

表面看,AI超越了人类专家。但一致性分析泼了冷水。

五轮测试暴露的"运气成分"

Anthropic让Claude Mythos Preview每道题跑五遍。结果呈现两极分化:

可解问题上,Claude几乎要么五轮全对,要么五轮全错。难题上,成功通常只出现在一两轮里。

这说明什么?模型不是靠可复现的策略解题,而是偶尔"撞"到一条幸运路径。30%的成功率背后,不是稳定的专家级能力,是概率性的摸索。

Anthropic分析了Claude区别于人类测试者的两个策略:一是调用广博的知识库,二是将信息与正在进行的分析直接结合。但当环境复杂度超过某个阈值,这种"边查边做"的模式就变成了抽奖。

这对AI产品化意味着什么

从产品经理视角看,BioMysteryBench的设计本身比结果更值得琢磨。

它解决了一个长期痛点:如何验证AI在开放域、工具依赖型任务上的真实能力。不是考知识,不是比速度,是给你脏数据、真工具、模糊目标,看你能不能端到端地交付。

这种评测思路对科研自动化、临床决策支持、药物研发等场景有直接参考价值。如果AI要在这些领域从"辅助工具"升级为"独立代理",BioMysteryBench式的压力测试是必经之路。

但五轮测试的波动数据也敲了警钟。产品化时,"30%成功率"和"五轮中偶尔成功一次"是截然不同的用户体验。前者可能支撑一个"专家级第二意见"产品,后者只能做"探索性灵感生成器"。

Anthropic没有回避这个 nuance,反而在论文里主动披露。这种透明对行业是好事——它划清了"演示级能力"和"生产级可靠性"的边界。

下一步该关注什么

23道难题的"本质无解还是极难解"之问,短期内不会有答案。但几个方向已经清晰:

第一,一致性。如果五轮测试的方差能压下来,30%可以变成可预期的30%,产品形态会完全不同。

第二,工具链。Claude目前被允许自由调用生物信息学工具和数据库,但工具本身的可靠性、API稳定性、数据版本漂移,都是真实部署时的隐藏成本。

第三,人机协作界面。既然AI和人类在难题上各有盲区,如何设计工作流让两者互补,比追求"全面超越人类"更务实。

Anthropic把验证笔记本作为题目准入门槛的做法,也值得其他垂直领域借鉴。它建立了一种可审计的、社区可复现的质量控制机制,比"我们相信专家"更经得起推敲。

Claude在生物信息学上的这步棋,表面是秀肌肉,实际是投石问路。99道题测出的不只是模型能力,更是一套评测方法论的可行性。对于盯着科研自动化赛道的创业者和产品经理,这份基准的含金量在于:它证明了端到端、真实数据、客观验证的评测是可以落地的,也暴露了当前技术栈在可靠性上的真实水位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1960年沈醉拜访唐生明,推门竟撞见大将陈赓,他瞒着军统给红军送了多少救命枪弹?

1960年沈醉拜访唐生明,推门竟撞见大将陈赓,他瞒着军统给红军送了多少救命枪弹?

史海孤雁
2026-04-30 15:52:10
老板娘问我她屁股大不大?我该怎么回答?

老板娘问我她屁股大不大?我该怎么回答?

太急张三疯
2026-05-01 12:40:14
打了9周烧了250亿,“封锁比轰炸更有效”,特朗普现在要“窒息”伊朗

打了9周烧了250亿,“封锁比轰炸更有效”,特朗普现在要“窒息”伊朗

上观新闻
2026-04-30 17:30:02
26年6月1日全国工地统一用工新规!60岁以上农民工上岗标准划定

26年6月1日全国工地统一用工新规!60岁以上农民工上岗标准划定

云景侃记
2026-05-01 14:26:08
医生发现:高血压患者若常喝茶叶水,不用多长时间,或有4个变化

医生发现:高血压患者若常喝茶叶水,不用多长时间,或有4个变化

荷兰豆爱健康
2026-05-01 14:15:35
不再隐忍!樊振东彻底摊牌,深夜长文炸穿全网,弃赛留洋真相大白

不再隐忍!樊振东彻底摊牌,深夜长文炸穿全网,弃赛留洋真相大白

李虰手工制作
2026-05-01 07:33:04
扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

Ck的蜜糖
2026-04-29 09:09:07
荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

狐狸先森讲升学规划
2026-04-29 05:50:03
冲上热搜!多部影片突然宣布:撤档!

冲上热搜!多部影片突然宣布:撤档!

中国基金报
2026-05-01 13:47:17
化疗到底能不能治好癌症?医生坦言:这几种癌症患者不需要化疗

化疗到底能不能治好癌症?医生坦言:这几种癌症患者不需要化疗

熊猫医学社
2026-05-01 11:35:03
斩杀中年男性的三件套:阳痿、失业和心梗!

斩杀中年男性的三件套:阳痿、失业和心梗!

灯锦年
2026-04-30 10:04:05
许家印都不敢这么干啊!五粮液,疯狂改业绩

许家印都不敢这么干啊!五粮液,疯狂改业绩

说财猫
2026-04-30 22:18:27
又一名前国脚球员,举家移居日本,只为让儿子走正规青训道路

又一名前国脚球员,举家移居日本,只为让儿子走正规青训道路

开成运动会
2026-04-28 23:08:53
美印尼狼狈为奸,断华经济命脉?中国还没发声,新加坡站边表态了

美印尼狼狈为奸,断华经济命脉?中国还没发声,新加坡站边表态了

看尽人间百态
2026-05-01 15:09:28
连说法都变了!中国回应将迎来首艘核动力航母!

连说法都变了!中国回应将迎来首艘核动力航母!

阿龙聊军事
2026-04-30 18:36:02
穿着短裤闯伦敦,无视国乒前辈!19岁松岛辉空,你的狂妄能撑多久

穿着短裤闯伦敦,无视国乒前辈!19岁松岛辉空,你的狂妄能撑多久

曹老师评球
2026-04-30 15:09:42
访华倒计时,美国算盘叭叭响,王毅1天2个电话,不留任何模糊空间

访华倒计时,美国算盘叭叭响,王毅1天2个电话,不留任何模糊空间

呼呼历史论
2026-05-01 11:20:36
五粮液自毁:我一下就震惊了!律师在行动:可索赔!连续三年获得“上市公司董事会最佳实践案例”就这!

五粮液自毁:我一下就震惊了!律师在行动:可索赔!连续三年获得“上市公司董事会最佳实践案例”就这!

新浪财经
2026-05-01 11:06:34
亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

凡知
2026-04-08 14:09:55
大S真心错付!具俊晔深情演过头,休息室刻意摆拍,让韩综跟拍一整年

大S真心错付!具俊晔深情演过头,休息室刻意摆拍,让韩综跟拍一整年

八卦王者
2026-05-01 14:14:24
2026-05-01 15:40:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2045文章数 26关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

游戏
家居
房产
数码
公开课

6万块 限量500件!《巫师3》新雕像:杰洛特希里对饮

家居要闻

灵动实用 生活艺术场

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

数码要闻

出货大涨13.1%仍不够分!Q1 硅晶圆市场冰火两重天:AI 吃饱 手机 PC跌倒

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版