网易首页 > 网易号 > 正文 申请入驻

突发!Anthropic深夜发布Claude Fable 5/Mythos 5,屠榜所有基准测试

0
分享至


来源:AI寒武纪

Anthtropic刚刚推出了一款 Mythos 级模型Claude Fable 5,面向所有普通用户开放,今天全面上线


与此同时,针对少数特定合作方,他们还推出了 Claude Mythos 5,它与 Fable 5 采用相同的底层模型,是 Claude Mythos Preview 的升级版,访问权限很快会扩大

Fable(寓言)源自拉丁语 fabula,意为"被讲述之物",与希腊语 mythos 同源。安全护栏是区分这两个模型的核心差异,也是它们拥有不同名称的原因所在,Andrej Karpathy说Fable 5是一次重大飞跃,杰文斯悖论开始显现,软件需求在大幅增长。你可以要求任何东西:解释器、可视化工具、定制应用、把测试套件扩充10倍、自动优化代码、运行大型研究项目并用自定义 HTML 呈现结果

Fable 5 和 Mythos 5 的定价分别为每百万个输入tokens 10 美元和每百万个输出tokens 50 美元,不到 Claude Mythos Preview 价格的一半

到底有多强?

Fable 5 在几乎所有测试过的 AI 能力基准上都达到了最先进水平,涵盖软件工程、知识工作、视觉、科学研究等众多领域。

并且任务越长、越复杂,Fable 5 相对其他模型的领先幅度就越大。


编程:把两个月的工作压缩进一天

测试期间,Stripe 反馈说,Fable 5 把原本需要数月的工程工作压缩到了几天之内。

具体来说:在一个有 5000 万行 Ruby 代码的大型代码库里,Fable 5 用一天时间完成了一次全库迁移,而这项工作如果靠人工完成,整个团队需要两个月以上。

在 Cognition 的 FrontierCode 评测上,Fable 5 也拿到了前沿模型中的最高分。这个评测不只看能不能完成编程任务,还要求符合高质量生产代码库的标准,而且 Fable 5 在中等算力消耗下就做到了,token 效率高于以往的 Claude 模型。



知识工作:金融分析接近满分

在 Hebbia 的金融基准测试上(考察高级别推理能力),Fable 5 得分高于所有模型,在基于文档的推理、图表与表格解读、问题解决等方面均有大幅提升。

IMC(国际市场商品公司)表示,Fable 5 在他们的交易分析评测中几乎全部拿到了优秀,包括事实查询、概念推理、根因分析和期望值分析。

视觉:靠截图还原代码,通关宝可梦

视觉能力方面,Fable 5 同样跻身当前最先进水平。

它能从复杂的科学图表中精确提取数据,甚至可以仅凭截图重建一个网页应用的源代码。更值得一提的是,它需要的辅助工具更少了。

此前的 Claude 模型即便配备了额外辅助工具,玩《宝可梦:火红》依然力不从心。而 Fable 5 只依靠原始游戏截图(没有地图、没有导航辅助、没有额外游戏状态信息),就从头到尾通关了这款游戏。

记忆与长文本:持久记忆让表现提升三倍

在长时间运行的任务中,Fable 5 能在数百万 token 的范围内保持专注,并借助自己的笔记不断优化输出。

在卡牌构筑游戏《杀戮尖塔》的测试中,为模型提供持久文件记忆后,Fable 5 的表现提升幅度是 Opus 4.8 的三倍;Fable 到达游戏最终章的频率,也是 Opus 4.8 的三倍。

Claude Fable 5可以从物理第一性原理出发建立太阳系模拟,并以此预测日食

Claude Fable 5 自主玩《异星工厂》(Factorio),自己制定策略并建造自动化工厂

Claude Fable 5 在浏览器 CAD 编辑器中设计一个完整的可 3D 打印模型,编辑器本身也由 Fable 5 创建,内置了负责建模的 AI 助手

Claude Fable 5 用代码写的流体模拟,运动与一首古典音乐 EDM 混音的节拍同步,而这首混音也是 Fable 5 用代码生成的

药物设计:速度提升十倍

Mythos 5 专属能力中,最令人震惊的是药物设计。

Anthropic 内部的蛋白质设计专家使用 Mythos 5 后,药物设计流程的部分环节加速了约十倍。在一项测试中,Mythos 5 在配备蛋白质设计和生物信息学工具但无人类协助的情况下,表现与经验丰富的人类专家相当,甚至更好。

它完成了科学家通常需要独立承担的全部工作:选择结合位点、选择和运行蛋白质设计工具、在失败时自主纠错。

研究中涉及的 14 个蛋白质靶点里,有 9 个产生了强有力的候选药物,目前正在进一步研究中。


分子生物学假说:80% 的情况下,科学家更偏向 Mythos

Mythos 5 是 Anthropic 第一个能持续产出有新意、令人信服的科学假说的模型。

在与 Opus 级别模型的盲测比较中,Anthropic 的科学家有约 80% 的时间更倾向 Mythos 5 提出的分子生物学假说,部分假说已推进到实验验证阶段。与此同时,Mythos 5 提出的一个关于大肠杆菌蛋白质新机制的假说,已被另一个独立开展同一课题研究的实验室的论文所印证。

基因组学研究:自主工作一周,超越 Science 发文模型

Mythos 5 在超过一周的基本自主工作中开展了原创基因组学研究。

它整合了跨越 138 个动物物种、数百万个细胞的单细胞数据,设计并训练了一个定制机器学习模型,用于识别亲缘关系较远的生物体中承担相同功能的细胞。

仅有高层次人工指导的情况下,Mythos 5 训练出的模型超越了近期发表于《Science》期刊的一个模型,而参数量只有后者的百分之一。相关结果预计将在未来几个月内发表。

对齐表现:与 Opus 4.8 持平

在自动化对齐评估中,Mythos 5 表现出的失准行为(包括欺骗、配合用户滥用模型等)处于较低水平,与 Opus 4.8 相当。由于 Fable 5 与 Mythos 5 是同一个底层模型,Fable 5 的对齐水平也大致相同。


Fable 5 的三重安全护栏

这是A厂一贯的调性,A厂认为发布如此强大的模型伴随着风险,没有安全措施的话,Fable 5 在网络安全等领域的能力可能被滥用,造成严重破坏。

为此,Anthropic 为 Fable 5 设置了三道安全分类器护栏。当某个请求触发护栏时,系统会自动转由 Claude Opus 4.8 来响应(而不是直接拒绝),用户也会被告知发生了转发。目前数据显示,超过 95% 的 Fable 5 会话没有触发任何转发。

第一道护栏:网络安全

Mythos 级别的模型在发现和利用软件漏洞方面表现卓越,并具备完整的"代理式黑客攻击"能力,包括侦察、发现、横向移动等多个攻击环节。Fable 5 的网络安全分类器覆盖了漏洞利用和更广泛的进攻性网络任务。

Anthropic 对分类器进行了大量红队测试,并委托外部机构进行漏洞悬赏测试。超过 1000 小时的测试未发现任何通用越狱方法。外部红队机构在长周期代理任务上也未找到通用越狱,尽管英国 AI 安全研究所在有限的初始测试窗口内取得了一定进展。

一位外部合作伙伴的测试结论是:Fable 5 的有害网络查询防护是所有被测模型中最强的,对 30 种公开越狱技术均不受影响,有害单轮请求的响应率为零。


第二道护栏:生物与化学

Anthropic 过去一直用分类器屏蔽部分生物武器相关问题,但现在他们认为这样做还不够。

原因有两点:一是有理由担忧掌握大量资源的恶意行为者利用模型获取高风险生物研究的帮助;二是模型现在完成真实世界科学任务的能力已经大幅提升。


他们用一个具体案例说明了这种风险:在测试 Mythos 5 辅助设计腺相关病毒(AAV)这一挑战性步骤时(AAV 是基因疗法的重要载体,同样的技术在被滥用时也可能被用于设计危险病毒),Mythos 级模型仅凭生物推理,就超越了专门用于蛋白质任务的专业模型,而 Anthropic 并未专门训练它完成这项任务。


基于这一判断,Fable 5 目前对大多数生物和化学相关请求都会转发给 Opus 4.8。几周内,部分生物医学研究人员和企业将能够通过可信访问计划,使用移除了生物化学护栏的 Mythos 5。

第三道护栏:模型蒸馏

Anthropic 此前发现了大规模提取 Claude 能力用于训练竞争对手模型的行为,被分类器判断为蒸馏尝试的请求,将转发至 Opus 4.8 处理。

还有一项新的数据保留政策

对于 Fable 5、Mythos 5 及未来能力相当或更高的模型,Anthropic 将对所有 Mythos 级别模型的流量强制执行 30 天数据保留。这包括第一方和第三方平台。

这些数据不会用于训练新的 Claude 模型,也不会用于任何非安全目的。Anthropic 实施了新的隐私保护措施,包括记录所有人类访问该数据的行为,并在几乎所有情况下确保数据在 30 天后删除。

保留数据的目的是帮助防范复杂和新型攻击(包括新型越狱和跨多个请求的攻击),以及帮助识别和减少误判。

从今天起,所有目前能访问 Claude Mythos Preview 的用户(例如 Project Glasswing 中的网络安全合作伙伴),都可以升级到 Claude Mythos 5,网络安全护栏在该版本中已解除。用户会发现 Mythos 5 在大多数任务上与 Mythos Preview 相当或略有提升,但价格大幅降低。

与此同时,他们将为生物领域开放一个可信访问计划,帮助加速生物医学研究。该计划提供解除了生物化学护栏(网络安全护栏仍保留)的 Fable 5 访问权限,面向来自基础研究和转化研究机构的少量研究人员,并计划逐步扩大。

开发者可通过 Claude API 使用 claude-fable-5 调用该模型。

今天至 6 月 22 日,Pro、Max、Team 和按座位付费 Enterprise 套餐用户免费使用 Fable 5。

6 月 23 日起,上述套餐中不再包含 Fable 5,使用需消耗额度。如容量允许,Anthropic 会延长免费窗口。

此后,待容量充足,Fable 5 将重新成为订阅套餐的标准部分。

参考:

https://www.anthropic.com/news/claude-fable-5-mythos-5

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一根筋!总让她打满全场,第四局失误送了七分,为何赵勇不调整?

一根筋!总让她打满全场,第四局失误送了七分,为何赵勇不调整?

南海浪花
2026-06-22 09:38:15
梅西梅开二度!加冕世界杯历史进球王!阿根廷2比0奥地利!

梅西梅开二度!加冕世界杯历史进球王!阿根廷2比0奥地利!

历史第一人梅西
2026-06-23 03:31:38
泽连斯基称波兰总统纳沃茨基正在做欧尔班做过的事,不会有好结果

泽连斯基称波兰总统纳沃茨基正在做欧尔班做过的事,不会有好结果

山河路口
2026-06-22 13:52:41
Lisa展示第8辆法拉利!现代超跑到复古神车,Lisa频晒豪车引热议

Lisa展示第8辆法拉利!现代超跑到复古神车,Lisa频晒豪车引热议

露珠聊影视
2026-06-22 23:43:31
马宁称给C罗黄牌没有任何压力,马宁:那一刻我必须等C罗冷静

马宁称给C罗黄牌没有任何压力,马宁:那一刻我必须等C罗冷静

大象新闻
2026-06-22 10:01:03
刘少奇在长征期间做了些啥?为何能在后来迅速成为党内二号人物

刘少奇在长征期间做了些啥?为何能在后来迅速成为党内二号人物

鹤羽说个事
2026-06-23 02:47:09
邓丽君去世一个月后,国民党少将谷正文爆料:邓丽君是台湾女间谍

邓丽君去世一个月后,国民党少将谷正文爆料:邓丽君是台湾女间谍

翠羽
2026-06-22 10:55:22
23岁小伙把45万美元遗产全存定期 理财专家:假装你没这笔钱

23岁小伙把45万美元遗产全存定期 理财专家:假装你没这笔钱

我是一个养虾人
2026-06-21 00:54:12
胡锡进:日本真没什么好玩的,大家干嘛要去日本旅游呢?

胡锡进:日本真没什么好玩的,大家干嘛要去日本旅游呢?

映射生活的身影
2026-06-21 19:30:48
美国急赴荷兰抓内鬼,EUV技术疑运中国,实为技术被超越

美国急赴荷兰抓内鬼,EUV技术疑运中国,实为技术被超越

主宰稳场
2026-06-22 02:35:58
官方通报!多名高校辅导员,违规违纪被处理

官方通报!多名高校辅导员,违规违纪被处理

麦可思研究
2026-06-22 18:29:45
如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

心理观察局
2026-05-04 09:23:46
冒犯所有人,滴露广告如此低级为哪般

冒犯所有人,滴露广告如此低级为哪般

南方都市报
2026-06-21 23:32:10
西安事变时,如果张学良选择除掉蒋介石,我国又会发生什么呢?

西安事变时,如果张学良选择除掉蒋介石,我国又会发生什么呢?

水木史记
2026-06-23 01:28:15
特斯拉FSD入华:6.4万买断还是700月租?算完账我醒了!

特斯拉FSD入华:6.4万买断还是700月租?算完账我醒了!

生活魔术专家
2026-06-22 04:43:59
骑士激活小波特第四年球队选项

骑士激活小波特第四年球队选项

体坛周报
2026-06-23 04:20:22
“没义务给C罗传球” 孔塞桑社媒被冲:你算哪根葱 学学阿根廷球员

“没义务给C罗传球” 孔塞桑社媒被冲:你算哪根葱 学学阿根廷球员

风过乡
2026-06-22 13:19:35
48岁欧阳夏丹现状:离开央视,被教授邀请现身挪威,至今未婚未育

48岁欧阳夏丹现状:离开央视,被教授邀请现身挪威,至今未婚未育

白面书誏
2026-05-07 17:50:08
抖音网红表妹李KK塌房,彻底玩完

抖音网红表妹李KK塌房,彻底玩完

新浪财经
2026-06-23 00:08:03
杨德龙:证监会主席吴清强调主动拥抱新一轮科技革命和产业变革

杨德龙:证监会主席吴清强调主动拥抱新一轮科技革命和产业变革

德龙财经
2026-06-22 20:48:58
2026-06-23 05:44:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4832文章数 37476关注度
往期回顾 全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

阿根廷2-0奥地利 卫冕冠军2连胜提前晋级32强

头条要闻

阿根廷2-0奥地利 卫冕冠军2连胜提前晋级32强

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

本地
教育
时尚
房产
数码

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

教育要闻

高考志愿填报临近,关于海南洛桑旅游大学,家长最关心的几个问题

羞辱妈妈的烂梗,越来越歹毒了

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

数码要闻

消息称三星显示已获苹果量产认证,将为折叠屏iPhone独供OLED面板

无障碍浏览 进入关怀版