4月8日凌晨,Anthropic正式公开Claude Mythos预览版的系统卡。
Mythos是一个“在各方面都表现强劲,尤其是计算机安全任务方面”的全新的通用语言模型(general-purpose language model),以至于Anthropic决定先让合作伙伴测试,帮助行业做好准备。
我们从Claude Mythos Preview 系统卡中,完整翻译了有关其性能的内容,为了便于理解,对个别字句做了调整,并在文章后面附上了各测评项目的术语解释,还有完整报告链接。
6 性能
6.1介绍
本节对 Claude Mythos Preview 在推理、编码、智能体任务、数学、长上下文以及知识工作等方面进行评估。网络安全能力见第 3 节。
这里评估的许多能力也与模型安全有关;其中一些评估也出现在第 2 节,我们在那里讨论了与《负责任扩展政策》相关的评估。
我们首先讨论“污染”问题,以及它如何影响我们所使用的若干评测基准。然后,我们给出一张汇总表,将 Claude Mythos Preview 与 Anthropic 其他模型及第三方模型在多种评测上的表现进行比较,随后再分别介绍各项评测及其方法细节。凡是也对 Claude Opus 4.6 进行过的评测,我们都保留其 System Card 中的描述,并注明任何变化。
6.2去数据污染
公共基准中的问题答案,可能会无意间出现在模型的训练数据中,从而抬高模型能够取得的分数。我们采取了若干步骤来对评估进行去污染;完整方法见 Claude Opus 4.5 System Card 第 2.2 节。对于多模态去污染,我们还会额外丢弃任何训练样本,只要其中图像的感知哈希值与某个多模态评测中所包含图像的感知哈希值相匹配。
下面,我们讨论三个在污染问题上尤其值得关注的评测。
6.2.1 SWE-bench评测
我们分析了 SWE-bench Verified、Multilingual 和 Pro,以检查是否存在记忆复现,即模型并非独立推导出解法,而是复现训练数据中的答案。
我们在所有试验上运行了多个过滤器,以在不同阈值下移除被标记的问题。在这一过滤后的子集上重新计分,并不会改变Claude Mythos Preview 的排名;在剔除被标记问题之后,它相对Claude Opus 4.6的大幅领先仍然存在。无论是在公开还是私有的智能体式编程基准上,无论是在这些评测的 clean 划分还是 full 划分上,增益都保持一致,这表明记忆复现并不是 Mythos Preview 在 SWE-bench 评测中改进的主要解释。
每个基准都从开源代码仓库中抽取问题,因此其内容可能出现在训练语料中。我们进行了语料级去污染,但在这三个基准中仍然观察到一些记忆复现的迹象。例如,在一个问题中,模型生成的补丁复现了参考解中的完全相同的辅助函数,尽管它先是独立推导、构建并测试了一个解法,随后似乎才在最后“回想起”标准答案补丁。OpenAI 也记录过对 SWE-bench Verified 的类似担忧。
为了检测记忆复现,我们使用一个基于 Claude 的审计器,将每个模型生成的补丁与标准补丁进行比较,并赋予一个 [0, 1] 的记忆复现概率。该审计器会权衡若干具体信号,例如在存在其他可行路径时逐字复现代码、与标准答案相匹配的独特注释文本等等;同时,它也被指示要忽略任何称职的求解者在给定问题约束下都可能产生的重合。作为补充,我们还使用一套基于规则的检查方法,来标记与参考解之间存在大量逐字注释重合的情况。我们对所有模型的每一次尝试都运行这两种检测器,只要某个问题在任一尝试中被标记,就将其视为可能存在记忆复现。我们从所有模型和所有尝试中,移除被标记问题的并集;这种做法对 Mythos Preview 是保守的,因为它也会移除那些可能被基线模型之一,也就是Opus 4.6 或 Claude Sonnet 4.5,记住的问题。
事后识别记忆复现,本质上只能做到近似。因此,我们对审计器的判定阈值在其整个范围内进行扫描,而不是固定采用单一阈值。在整个过滤严格度范围内,Claude Mythos Preview 在每个基准上都持续明显领先于 Claude Opus 4.6 和 Claude Sonnet 4.6。
![]()
(上图展示了 Claude Mythos Preview、Claude Opus 4.6 和 Claude Sonnet 4.6 在 SWE-bench Verified(n=500)、Multilingual(n=297)和 Pro(n=731)上的通过率如何随过滤严格程度而变化。对每个模型,都会在这样一个题目子集上重新计分:该子集中,任一模型对应的审计器所赋予的记忆复现概率都小于或等于横轴数值。柱状条表示在每个阈值下被保留下来的题目数量。在阈值为 1.0 时(最右侧),所有题目都会被保留,曲线也就与表 6.3.A 中的总分一致;向左移动则会逐步剔除那些被判断为越来越可能属于记忆复现的题目。在整个阈值范围内、在这三个基准上,Mythos Preview 相对于两个基线模型都始终保持明显领先。在我们采用的参考阈值0.7 下,这是一种刻意偏向高召回率的设置,会移除每个基准中 8% 到 15% 的题目;在这一设置下,Mythos Preview 相对 Opus 4.6 的领先幅度最多只缩小 3.5 个百分点。最左侧出现的不稳定性,是在通过过滤后剩余题目少于约 30 道时产生的小样本噪声。随着记忆复现过滤条件放宽、更多被标记的题目被重新加入,Claude Mythos Preview 的通过率大致保持稳定,而 Claude Opus 4.6 和 Claude Sonnet 4.6 的通过率则有所下降。这与如下情况一致:Claude Mythos Preview 记住了一些更难的、被标记出来的题目,而基线模型并未独立解出这些题目。)
我们的检测器并不完美,但这一结果对于阈值的选择是稳健的,并且也与 Mythos Preview 在训练语料中不存在的内部基准上所体现出的提升一致。我们的结论是,记忆复现并不能解释其在SWE-bench 上的改进。
6.2.2 CharXiv Reasoning
CharXiv Reasoning 是我们在第 6.11.3 节中为 Claude Mythos Preview 报告的一项基准。CharXiv 的问题来自既有的公共材料,例如 arXiv 论文中的图表。这些材料广泛存在于大规模网络预训练语料中,因此天然难以被完全去污染。
我们使用两种互补的方法来检测 CharXiv Reasoning 的污染情况。我们选取了答案文本具有鲜明特征的评估条目,在完整预训练混合语料中进行精确匹配搜索;另外,我们还单独搜索评测图像。尽管我们对评测图像进行了强有力的图像级过滤,但我们仍确认,大多数问题-答案文本对都出现在语料中。
为了估计污染的影响,我们从该基准中取出一个子集,构造其保留集变体,对每个问题或图像进行人工扰动,然后比较原始版本与重混版本的准确率。例如,我们会要求模型识别图表中的另一个标签,而不是原来的标签,或者要求它识别第二低而不是第二高的系列,从而让正确答案发生变化,同时大致保持难度不变。
![]()
(我们从原始 CharXiv 基准中选取一部分问题,对模型进行评估,所使用的既包括原始的问题—答案对,也包括经人工改写、在难度和歧义性上大致等价的变体。Claude Mythos Preview 的评测设置为自适应思考和最大 effort。Gemini 3.1 Pro Preview 的评测使用默认的动态思考等级“high”。GPT-5.4 Pro 的评测则将推理设置为“high”。)
在一个由 100 个条目组成的CharXiv 重混版本上,Claude Mythos Preview、Gemini 3.1 Pro Preview 和 GPT-5.4 Pro 在重混版本上的得分都高于相应原始子集上的得分。这表明,原始基准上的表现中可归因于记忆复现的部分是有限的。我们的结论是,污染不太可能对 Claude Mythos Preview 在 CharXiv 上的表现产生有意义的贡献。
6.2.3 MMMU-Pro
MMMU-Pro 是我们通常会在这份System Card 中报告的一项基准,具体来说原本会放在下文第 6.11 节。和 CharXiv Reasoning 一样,MMMU-Pro 由广泛传播的公共材料构成,例如大学考试、教材和测验网站,这些内容很难从训练语料中被完全去污染。
我们识别出训练数据中存在大量 MMMU-Pro 图像,主要来源于教材、作业辅导网站和文档抓取数据,这些来源会重新打包并分发底层源内容。
与 CharXiv Reasoning 不同,MMMU-Pro 中可较容易构造出“难度大致等价”变体的问题数量有限。MMMU-Pro 确实包含少量图表和图形,但如果只研究这一小部分问题,会形成有偏差的图景。鉴于很难判断污染的影响,我们选择在本 System Card 中省略 MMMU-Pro 的结果。
6.3总体结果汇总
表 6.3.A 汇总了下文将更详细讨论的评测。
![]()
(能力评估汇总。除非另有说明,所有 Claude Mythos Preview 的结果均使用以下标准配置:自适应思考,最大effort,默认采样设置(temperature、top_p),并对 5 次试验求平均。上下文窗口大小因评估而异,但不超过 100 万 tokens。每一行中的最佳分数以粗体标出。竞争模型的数据来自各自开发者公开发布的system card 或基准排行榜。更早期 Claude 模型的评估细节见 Claude Opus 4.6 System Card。*对于 Terminal-Bench 2.0,OpenAI 在其报告分数中使用了专门化的 harness,因此这一行模型之间的比较并不精确。其余所有分数均使用Terminus-2 harness。)
6.4 SWE-bench Verified、Pro、Multilingual和Multimodal
SWE-bench(Software Engineering Bench)用于测试 AI 模型在真实世界软件工程任务中的表现。我们报告四个变体:
● SWE-bench Verified(OpenAI)是一个由 500 个问题组成的子集,每个问题都经由人工工程师验证为可解。Claude Mythos Preview 的成绩为 93.9%,取 5 次试验平均。
● SWE-bench Pro(Scale)是更难的变体:问题取自仍在积极维护的代码仓库,具有更大的多文件 diff,并且不存在公开的标准答案泄漏。Mythos Preview 的成绩为 77.8%,取 5 次试验平均。
● SWE-bench Multilingual 将这一格式扩展到 9 种编程语言的 300 个问题。Mythos Preview 的成绩为 87.3%,取 5 次试验平均。
● SWE-bench Multimodal 在 issue 描述中加入视觉上下文(截图、设计稿)。Mythos Preview 的成绩为 59.0%(使用内部 harness 评估;见附录 8.4),取 5 次试验平均。我们注意到,这一变体在不同试验之间的波动高于其他变体,为 56.4% 至 61.4%。
所有 SWE-bench 变体都使用标准配置(见表 6.3.A),并在采样结果中包含 thinking blocks。关于我们的记忆复现筛查,见第 6.2 节。
6.5 Terminal-Bench 2.0
Terminal-Bench 2.0 由斯坦福大学和 Laude Institute 的研究人员开发,用于测试 AI 模型在终端和命令行环境中执行真实世界任务的能力。
我们在 Harbor scaffold 中、使用 Terminus-2 harness 和默认 parser 运行了 Terminal-Bench 2.0。每项任务都在独立的 Kubernetes pod中运行,资源保证为基准规定上限的 1 倍(硬抢占上限为 3 倍),超时设定也为 1 倍,以保持与基准的一致性。关于这一配置的细节,可见我们的工程博客。
Claude Mythos Preview 在 89 个独特任务中的每一个任务上都进行了 5 次尝试,总计 445 次试验,最终取得了 82% 的平均 reward。我们将 Mythos Preview 配置为:最大推理 effort(自适应模式)、每个任务总 token 预算为 100 万、每次请求的最大输出 tokens 为 32K。Terminal-Bench 对推理延迟十分敏感:固定的墙钟超时意味着,解码更慢的端点在每项任务中能完成的 episode 更少。我们报告的分数使用了生产 API 端点,以反映这些动态因素。
Terminal-Bench 2.0 的超时设置有时相当苛刻,尤其对于会思考的模型而言,这会带来一个风险,即真实能力的大幅跃升会被看似无关的混杂因素遮蔽,例如采样速度。此外,Terminal-Bench 2.0 中的一些任务本身存在歧义,资源规格也有限,无法真正让智能体探索完整解空间。目前维护者正在 2.1 更新中处理这两个问题。为了专门衡量剔除这些混杂因素后的智能体式编码能力,我们还使用 GitHub 上最新可得的 2.1 修复版运行了 Terminal-Bench,同时将超时上限提高到 4 小时,大约是 2.0 基线的四倍。这使平均 reward 提高到 92.1%。在相同条件下,我们测得 GPT-5.4 配合 Codex CLI harness 的成绩为 75.3%(相比基线规格下的 68.3% 有所上升)[23]。
6.6 GPQA Diamond
Graduate-Level Google-Proof Q&A benchmark(GPQA)[24] 是一组高难度的科学多项选择题。我们使用其中由 198 道题构成的 Diamond 子集,这些问题是领域专家能够答对、但大多数非专家无法答对的题目。
Claude Mythos Preview 在 GPQA Diamond 上取得了 94.55% 的成绩,取 5 次试验平均。
6.7 MMMLU
MMMLU(Multilingual Massive Multitask Language Understanding)用于测试 14 种非英语语言中、57 个学术学科上的知识与推理能力。Claude Mythos Preview 在所有非英语语言配对上的成绩为 92.67%,取 5 次试验平均;每次运行都使用自适应思考、最大 effort 和默认采样设置(temperature、top_p)。
6.8 USAMO 2026
美国数学奥林匹克竞赛(USAMO)是一项为高中生设置的、为期两天、共六道题、以证明为核心的竞赛。它是美国数学奥赛路径中、AIME 之后的下一阶段。AIME 曾是去年很受欢迎的 AI 基准,但如今已经趋于饱和。2026 年 USAMO 于 2026 年 3 月 21 日至 22 日举行,这一时间晚于Claude Mythos Preview 训练数据的截止时间。
由于 USAMO 的答案是证明而不是简短答案,评分可能具有挑战性且带有主观性。我们采用 MathArena 的评分方法:先由一个中立模型(Gemini 3.1 Pro)对每份证明进行改写,再由 3 个前沿模型组成的小组根据既定 rubric 评分(我们使用的是 Gemini 3.1 Pro、Claude Opus 4.6 和 Mythos Preview)。最终得分取任一评委给出的最低分。
Mythos Preview 在每道题上进行 10 次试验、使用最大 effort 且不使用工具,最终取得了 97.6% 的成绩。我们还使用 Claude Opus 4.6 对自己的 harness 进行了校准,使之对齐 MathArena 已公开分数:MathArena 测得 Opus 4.6 的分数为 47.0%,而我们测得的为 42.3%。
![]()
(2026年美国数学奥林匹克(USAMO)得分。Claude Mythos Preview在数学证明方面的表现远优于 Claude Opus 4.6。)
我们注意到,3 位评委中有 2 位是 Anthropic 的模型,这可能会对 Mythos Preview 有利;不过作为平衡,Gemini 3.1 Pro 与这些评分保持一致,并且在 60 份解答中有 58 份完全没有发现任何问题。
6.9长上下文:GraphWalks
GraphWalks 是一个多跳长上下文基准:上下文窗口被填入一个由十六进制哈希节点构成的有向图,模型必须执行广度优先搜索(BFS),或者从随机起始节点识别父节点。
Claude Mythos Preview 在 BFS 256K-1M 上取得了 80.0%,在 parents 256K-1M 上取得了 97.7%,均为 5 次试验的平均值[25]。与先前的Claude 模型一样,我们的评分修正了已发布 F1 指标中的一个歧义,即当真实答案集合为空时,空预测应得 1.0 分而不是 0 分;同时,我们还对 BFS 提示进行了澄清,要求返回“恰好在深度 N 的节点”,而不是“深度不超过 N 的节点”。详见 Claude Opus 4.6 System Card。
6.10智能体式搜索
6.10.1 Humanity's Last Exam
Humanity’s Last Exam(HLE)是一个“位于人类知识前沿的多模态基准”,共包含 2,500 道问题。
我们在两种配置下测试了 Claude Mythos Preview:(1)仅推理,不使用工具;(2)使用网页搜索、网页抓取、程序化工具调用、代码执行,并且每 50k tokens 进行一次上下文压缩,最多扩展到 300 万 tokens。Claude Opus 4.6 被用作模型评分器。
为了防止工具版本结果受到污染,我们对搜索器和抓取器都设置了已知讨论 HLE 的来源黑名单(见附录 [X])。我们还使用 Claude Opus 4.6 审阅全部对话轨迹,并标记任何看起来从 HLE 特定来源中检索到答案的情况;一旦确认,这些案例会被重新判为错误。
Mythos Preview 在无工具设置下得分 56.8%,在有工具设置下得分 64.7%。
6.10.2 BrowseComp
BrowseComp 测试智能体在开放网络上寻找难以定位信息的能力。我们使用网页搜索、网页抓取、程序化工具调用和代码执行来运行 Claude Mythos Preview。Mythos Preview 在自适应思考、最大 effort 和 300 万token 限额下取得了 86.9% 的成绩。我们使用上下文压缩(在 200k tokens 时触发)来扩展超过 100 万 token 的上下文窗口。
在我们的搜索工具条件下,我们认为这个基准已接近饱和,因此 Mythos Preview相比我们测得的 Claude Opus 4.6 最佳分数仅带来了适度的准确率提升(86.9% 对 83.7%)。不过,该模型是用明显更小的 token 足迹取得这一分数的:Mythos Preview 的最佳结果在每项任务上使用的 tokens 比 Opus 4.6 少4.9 倍(每项任务 226k 对 1.11M)。
需要说明的一点是预训练污染。尽管我们已经尽最大努力进行防范,但仍有一些答案泄漏到了网上,而且几乎没有简单方法能够识别它们,这些答案很可能进入了我们的预训练语料。为了估计污染程度,我们在不思考、也不使用工具的条件下评估模型,得分为 24.0%。不过,这其中一些对话轨迹很长(超过 5k tokens),并且显示模型确实进行了真实的演绎推理,基于内部知识系统性地探索选项,这并不必然意味着它记住了答案。若仅限于短轨迹(不超过 5k tokens),只有 15.1% 的答案是正确的;这很可能是对该基准中记忆复现比例的一个更好的上界。在解释这一基准上的分数时,应将这一点考虑在内。
![]()
(在上下文压缩的帮助下,随着我们增加模型被允许使用的总 token 数量,BrowseComp 的准确率也随之提升。)
6.11多模态
对于 Claude Mythos Preview,我们相较于此前的 system card,对多模态评估方法做了三项修改。
第一,在此前的 system card 中,我们在所有多模态能力评估中都只给模型提供了一个图像裁剪工具。而在这里,我们提供了一组扩展后的 Python 工具:一个预装常见图像分析库(例如 PIL、OpenCV)的代码执行沙箱,以及原有的图像裁剪工具。
第二,我们更新了 CharXiv Reasoning 和 LAB-Bench FigQA 的评分模型。在评估我们的模型时,我们发现 Claude Sonnet 4(之前使用的评分器)有时无法输出格式良好的评分结果,尤其是在被评估模型产生了较长工具使用轨迹时。这会人为压低 LAB-Bench FigQA 和 CharXiv Reasoning 的分数。因此,我们将本节所有评估的评分器统一切换为 Claude Sonnet 4.6。
第三,我们更新了评分流程,以保留被评估模型的 thinking trace;而此前我们会在把对话轨迹传给评分模型之前先移除这部分内容。我们发现,这一变化对分数几乎没有影响,唯一明显的例外是 Claude Opus 4.6 在 CharXiv Reasoning 上的表现,当保留 thinking trace 进行评分时,它的分数会明显更低。
为了实现公平比较,我们使用扩展后的工具集和新的评分器,重新评估了所有先前模型。下文报告的所有分数均为 5 次运行的平均值。
6.11.1 LAB-Bench FigQA
LAB-Bench FigQA 是一个视觉推理基准,用于测试模型能否正确解读并分析生物学研究论文中复杂科学图形所包含的信息。该基准属于 FutureHouse 开发的 Language Agent Biology Benchmark(LAB-Bench)[26],用于评估 AI 在实际科学研究任务中的能力。
在自适应思考、最大 effort、且不使用工具的设置下,Claude Mythos Preview 在 FigQA 上取得了 79.7% 的成绩。在自适应思考、最大 effort、且使用 Python 工具的设置下,Claude Mythos Preview 取得了 89.0% 的成绩。在这两种设置中,Claude Mythos Preview 都优于 Claude Opus 4.6,后者的分数分别为 58.5% 和 75.1%。Claude Sonnet 4.6 在相同设置下的分数分别为 59.3% 和 76.7%。
![]()
[模型在自适应思考(adaptive thinking)和最大努力(max effort)模式下进行评估,测试条件包括使用和不使用 Python 工具。专家人类基线数据引用自原始的 LAB-Bench 论文报告。分数为五次运行的平均值。图中展示了 95% 置信区间(CI)。]
6.11.2 ScreenSpot-Pro
ScreenSpot-Pro 是一个GUI grounding 基准,用于测试模型在给定自然语言指令的情况下,能否在专业桌面应用程序的高分辨率截图中,精确定位特定用户界面元素[27]。该基准由新加坡国立大学及合作机构的研究人员开发,包含 1,581 个由专家标注的任务,覆盖 23 款专业应用程序,包括 IDE、CAD软件和创意工具,跨越 3 种操作系统;目标元素平均仅占屏幕面积的不到 0.1%。
在自适应思考、最大 effort、且不使用工具的设置下,Claude Mythos Preview 在 ScreenSpot-Pro 上取得了 79.5% 的成绩。在自适应思考、最大 effort、且使用 Python 工具的设置下,Claude Mythos Preview 取得了 92.8% 的成绩。在这两种设置中,Claude Mythos Preview 都优于 Claude Sonnet 4.6,后者在无工具和有工具设置下分别为 65.0% 和 82.4%;也优于 Claude Opus 4.6,后者分别为 57.7% 和 83.1%。
![]()
[模型在自适应思考(adaptive thinking)和最大努力(max effort)模式下进行评估,测试条件包括使用和不使用 Python 工具。分数为五次运行的平均值。图中展示了 95% 置信区间(CI)。]
6.11.3 CharXiv Reasoning
CharXiv Reasoning 是一个综合性的图表理解评测套件,基于来自 arXiv 论文、横跨八个主要科学学科的 2,323 张真实世界图表构建而成[28]。该基准测试模型是否能够综合复杂科学图表中的视觉信息,回答需要多步推理的问题。
我们在验证集中的 1,000 道问题上评估模型,并对 5 次运行的分数求平均。Claude Mythos Preview 在自适应思考、最大 effort、且不使用工具的设置下,在 CharXiv Reasoning 上取得了 86.1% 的成绩。在自适应思考、最大 effort、且使用 Python 工具的设置下,Claude Mythos Preview 取得了 93.2% 的成绩。Claude Opus 4.6 的分数分别为 61.5% 和 78.9%,Claude Sonnet 4.6 的分数则分别为 73.1% 和85.1%。
![]()
[模型在自适应思考(adaptive thinking)和最大努力(max effort)模式下进行评估,测试条件包括使用和不使用 Python 工具。分数为五次运行的平均值。图中展示了 95% 置信区间(CI)。]
6.12 OSWorld
OSWorld 是一个多模态基准,用于评估智能体通过鼠标和键盘操作与实时 Ubuntu 虚拟机交互,从而完成真实世界计算机任务的能力,例如编辑文档、浏览网页和管理文件。我们采用了默认设置,即 1080p 分辨率,以及每项任务最多 100 个动作步骤。
Claude Mythos Preview 在 OSWorld 上取得了 79.6% 的成绩(首次尝试成功率,取 5 次运行平均)。
附:评测术语说明
独立的评测项目或评测框架:
SWE-bench真实软件工程问题评测,要求模型读代码、理解 issue、修改代码并生成补丁。
Terminal-Bench测试模型在终端/命令行环境中执行真实任务的能力。
GPQA研究生难度的科学问答基准,强调高水平科学知识与推理。
MMMLU多语言、多学科知识与推理基准。
USAMO美国数学奥林匹克题目评测,主要考证明题。
GraphWalks长上下文图结构推理基准,测试模型在超长上下文中的搜索与推理能力。
Humanity’s Last Exam(HLE) 高难度、多学科、多模态问题集,测试接近知识前沿的问题求解能力。
BrowseComp开放网络搜索能力基准,测试模型查找和整合难找信息的能力。
LAB-Bench面向生物学研究任务的评测框架。
ScreenSpot-ProGUI grounding 基准,测试模型在截图中定位界面元素的能力。
CharXiv基于 arXiv 论文图表构建的图表理解评测框架。
MMMU多学科、多模态理解基准,通常用于测图文混合理解能力。
OSWorld桌面操作智能体基准,测试模型通过鼠标和键盘完成真实电脑任务的能力。
某个benchmark的细分版本:
SWE-bench VerifiedSWE-bench 经过人工验证、确认可解的子集。
SWE-bench ProSWE-bench 更难、更接近真实工程环境的版本。
SWE-bench MultilingualSWE-bench 多编程语言版本。
SWE-bench MultimodalSWE-bench 加入截图、设计稿等视觉信息的版本。
GPQA DiamondGPQA GPQA 中更难、更精华的子集。
LAB-Bench FigQALAB-Bench 专门测试科学图表理解的子项。
CharXiv ReasoningCharXiv 强调图表理解与多步推理的版本。
MMMU-ProMMMU 更高难度、更严格的版本。
BFS 256K-1MGraphWalks 要求在超长上下文里做广度优先搜索的任务版本。
parents 256K-1MGraphWalks要求在超长上下文里识别父节点的任务版本。
系统卡完整报告:
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.