Sudoku-Bench: Evaluating creative reasoning with Sudoku variants
Sudoku-Bench:通过数独变体评估创造性推理
https://arxiv.org/pdf/2505.16135
![]()
现有的大语言模型(LLM)推理基准测试常常无法捕捉真正的创造性,往往奖励对已知模式的记忆。我们通过Sudoku-Bench来解决这一缺陷,这是一个精心策划的、包含具有挑战性和非传统变体的数独难题的基准测试,专门用于评估创造性、多步骤的逻辑推理能力。数独变体是推理研究中一个格外有效的领域:每个谜题都引入了独特或微妙交互的约束条件,使得单纯记忆变得不可行,要求解题者发现全新的逻辑突破口(“破题点”)。尽管这些变体形式多样,但它们保持了共同且紧凑的结构,从而实现了清晰且一致的评估。Sudoku-Bench包含一个精心挑选的谜题集、标准化的文本格式谜题表示方法,以及兼容数千个公开可用谜题的灵活工具,便于扩展为通用研究环境。基线实验表明,当前最先进的大语言模型在无人辅助的情况下仅能解决不到15%的谜题,凸显出在长视野、战略性推理能力方面仍有巨大的提升空间。
1. 引言
大规模语言模型在短篇幅推理任务上表现出色(Long, 2023;Wei et al., 2022),但真正具有创造性的推理仍然难以实现。许多标准基准测试中,当前模型的表现已经接近甚至超过人类水平(Glazer et al., 2024;Hendrycks et al., 2021;Phan et al., 2025),但这些测试往往奖励对解题模板的记忆(Bubeck et al., 2023)。一旦这些模板被模型隐式记住,准确率的微小提升就难以反映模型在新颖推理方面的真实能力。像ARC(Chollet, 2019)这样的基准测试虽然能有效抵抗记忆化;然而,它们的解法对模型而言虽属新颖,对人类来说却仍然简单,不足以充分捕捉人类创造性推理的深度。
我们提出数独变体(图1)作为填补这一空白的独特研究领域。数独变体是一种逻辑谜题,由一个部分填好数字的×网格构成,并配有视觉约束,甚至包含只能通过自然语言描述的特定规则。尽管如此,每个谜题仍然有唯一解——一个满足所有约束条件的×网格。谜题设计者会引入原创规则,或将常见约束以新颖方式组合。每天都有数百个用户提交的数独变体发布在诸如德国逻辑大师(Logic Masters Germany, Log)等平台上,这些谜题被刻意设计为需要创造性洞察和微妙的逻辑突破。这类谜题恰好针对那种新颖的、多步骤的推理过程,而以记忆为主或当前流行的推理基准测试往往无法持续有效地衡量这种能力(Zhang et al., 2024)。
![]()
本文的贡献有两方面。首先,我们推出了开源工具,可直接与流行的数独应用SudokuPad(Neumann, 2021)对接,支持智能体式工具调用交互以及标准化的文本格式谜题表示。这种智能体交互提供了一个API,可用于获取当前棋盘状态的图像,并访问SudokuPad中所有人类解题者通常依赖的标注工具。我们的文本格式将逻辑推理与视觉处理分离,使得当前语言模型能够进行有效评估。其次,我们提出了Sudoku-Bench,这是一个精心筛选的包含100个数独变体的基准测试集,由我们与YouTube频道“Cracking the Cryptic”的主持人合作选定。这些谜题涵盖了广泛的难度和推理风格,特意选择用于测试模型在多样化逻辑路径和谜题特有的“破题点”上的表现。
我们的实验表明,Sudoku-Bench对当前最先进的模型构成了显著挑战。在没有工具辅助的情况下,即使是最强的公开可用大语言模型,也仅能解决不到15%的基准测试题。值得注意的是,大多数成功解答来自最简单的4×4谜题子集,而随着网格变大或更加非传统,模型性能迅速下降。这一现象在单次提示配置(即让模型一次性输出完整解法)和多步交互配置(模型与用户进行多轮对话,模型至少提供一个数字,用户反馈更新后的棋盘状态)中均被观察到。
除了作为基准测试,数独变体还为推理研究提供了丰富的实验平台。大量持续增长的人工设计谜题支持可扩展的难度递进:从适合小型模型的简单4×4谜题,到极为复杂的9×9谜题——其中最难的题目甚至能让绝大多数人类专家解题者陷入困境。丰富的辅助数据,包括详细的专家解题记录和交互轨迹,为模仿学习提供了便利。作为Sudoku-Bench的一部分,我们收录了来自“Cracking the Cryptic”这一知名YouTube频道的数千小时解题推理记录和操作行为数据。该频道专注于详细演示数独变体的解法,视频总观看量超过2.5亿次。这些数据完全向研究人员开放,可供探索基于监督学习的方法,从人类推理中学习并微调模型——其深度和多样性远超当前最先进的语言模型所生成的合成推理数据集(Li et al., 2025;Muennighoff et al., 2025)。
本文其余部分结构如下:第2节概述数独变体及其推理需求;第3节详细介绍Sudoku-Bench数据集、文本接口及评估框架;第4节展示基线实验结果并对模型失败模式进行分析;第5节回顾相关工作;第6节总结并提出未来开放的研究方向。
2. 背景:数独变体
传统数独要求完成一个9×9的网格,使得数字1到9在每一行、每一列以及每一个3×3的子网格中恰好出现一次。这一结构为众多变体奠定了基础,这些变体引入了额外的约束条件。例如,“杀手数独”(Killer Sudoku)结合了数独和卡库罗(Kakuro)的元素,要求被划定区域(“笼子”)内的数字之和等于指定数值,且区域内数字不重复。“温度计”(Thermometers)是由相邻格子组成的路径,路径上的数字必须单调递增。沿“箭头”方向的数字之和必须等于箭头底部圆圈格子中的数字。格子之间的“克罗普基点”(Kropki dots)表示特定关系,例如数字相邻(相差1)或成2倍关系(1:2比例)。
基于网络的谜题制作工具的普及,使得谜题设计者能够自行发明新的变体。2020年初,谜题发布平台Logic Masters上的谜题数量激增。截至2025年5月,该网站已发布超过27,000个用户提交的变体谜题(Log)。
谜题设计者经常以独特的方式组合多种约束条件。这些约束的组合往往导致谜题初始时仅提供极少甚至没有已知数字,因此必须通过深入的逻辑推理才能确定最初的填数位置,这一关键突破口被称为“破题点”(break-in)。这类谜题要求解题者仔细探索各约束之间的相互作用,与当前推理大语言模型中常见的盲目猜测行为形成鲜明对比(见第4节)。
除了这些标准约束类型外,出题者还经常使用“元约束”(meta-constraints),即需要通过解题过程推断出谜题特有的参数。例如:“某个笼子内数字之和为一个未知值,需通过解题确定”,或“某条线需要判断为回文序列或连续序列(renban sequence)”。这些元约束为谜题增添了额外的复杂性,也要求更高层次的创造性推理能力。
![]()
谜题设计者的创造力几乎不受限制,他们经常开发出奇思妙想且新颖的规则集(例如以老鼠走迷宫为主题的谜题(见图1))。关键在于,所有数独变体都保持一种结构化的格式:一个×的网格、用自然语言描述的谜题规则、可轻松编码为文本的视觉元素,以及唯一确定的解。这种结构清晰又灵活的框架,使得数独变体特别适合系统性地研究创造性推理能力——这意味着这些谜题既高度多样且富有挑战性,同时又有明确的根基,易于验证解答是否正确。
谜题示例:Ascension我们通过一个例子来说明这些特点。图2a展示了“骑士移动”限制与“箭头”约束之间的一种新颖交互。
要找到该谜题的“破题点”(break-in),解题者必须做出三个观察。
首先,无论绿色高亮格子(r4c6,第5宫)中的数字是什么,它都必须出现在第2宫中的某个位置,但不能在第6列(根据标准数独规则),也不能在其箭头指向的格子上,或与之成“骑士移动”(国际象棋中“马”的走法)的位置上。因此,该数字只能出现在两个半阴影格子r1c4或r1c5之中。同样的模式也适用于中间图中用其他颜色标出的其他格子组。
第二个观察是:由于箭头路径上的数字必须小于其末端圆圈格子中的数字,这就形成了跨越所有高亮格子的长距离链式依赖关系——具体来说,黄色、紫色、绿色、蓝色,最后到红色的圆圈格子,其数字必须单调递增。这是一个关键洞察,但尚不足以确定具体数字。
第三个观察是:紫色格子中的数字必须等于其箭头末端两个格子(r4c1和r4c2)中数字之和,而其中有一个数字又等于黄色格子r7c3的值;而r7c3本身又是一个箭头末端的圆圈格,因此它等于另外两个数独数字之和。综合来看,唯一既能作为三个数独数字之和,又为后续绿色、蓝色和红色格子的单调递增序列留下足够空间的数字是6。因此,r4c6必须为6,后续单调链中的数字也随之被唯一确定(见右侧面板)。
在一段演示该谜题解法的视频中,一位专家解题者大约用时4.5分钟发现了这一破题点,整个谜题完整解出耗时约35分钟。¹ 而在我们测试的所有大语言模型中,没有任何一个模型能够取得进展。例如,我们展示了Gemini 2.5 Pro Preview的推理摘要(图2b),该模型能够成功解析并识别出谜题的各个约束条件,但很快便转向猜测和穷举搜索。这凸显了当前大语言模型的推理方式与人类偏好的推理方式之间仍存在差距:大语言模型可能依赖暴力搜索,而人类则倾向于通过精确的逻辑推理寻找捷径,以节省时间和精力。我们希望这一基准测试能够推动研究,开发出更“类人”的推理方式的大语言模型。
Ascension 这个例子突出了数独变体的两个特点。第一,尽管“骑士移动”和“箭头”约束本身都很常见,但它们在此谜题中的具体交互方式是前所未有的。因此,数独变体对记忆的抵抗性并不仅仅源于引入了全新的规则集;熟悉的约束条件也可能产生前所未见的解题策略。事实上,一些最难的谜题恰恰采用了看似简单的规则集。第二点是,对于初始给定数字极少甚至为零的谜题(这在变体中很常见),搜索空间过于庞大,使得初期的随机猜测无效。这也常常需要一种“元推理”(meta-reasoning)能力——即在解题之初就必须判断应采用哪些推理技术,例如使用“着色法”(coloring)、集合论,或分析数字的奇偶性。
人类在面对这类谜题时,通常需要在开始阶段花时间理解各种约束条件如何以新的方式相互作用,这是正常且常见的过程。这也意味着,某些最初的推理结论在整个解题过程中始终有效,因此要稳健地完成这些可能涉及上百步的复杂谜题,模型要么需要某种形式的记忆机制(例如草稿纸),要么需要非常长的上下文窗口。
3. Sudoku-Bench:数据集与基准设计
我们旨在选取100道具有代表性的数独变体谜题,以体现该类谜题的广泛多样性。为了建立一个分级的评估曲线,我们选定了15道4×4谜题、15道6×6谜题和70道9×9谜题。其中包含15道4×4谜题,部分原因是为了衡量即使是规模较小的语言模型的进步情况。70道9×9谜题中的50道由YouTube频道“Cracking the Cryptic”的主持人专门为此基准测试精心挑选。所选谜题的难度评级覆盖范围均衡,从初学者友好的“一星”谜题,到专家级别的“五星”挑战——后者可能需要数小时的细致分析才能确定第一个可以填入的数字。另有20道为高难度的传统数独(vanilla Sudoku),由在1980年代推广数独的谜题公司Nikoli提供。我们的目标是构建一个平滑递增的复杂度曲线:初学者尝试该基准时能取得一些早期成功,但要完全解决整个基准则极具挑战性。我们希望这一基准在相当长的一段时间内都难以被彻底攻克。
文本描述每道谜题都配有纯文本表示。例如,图3展示了一个简单的4×4谜题,其中路径线条用一系列“rxcy”(第x行第y列)坐标序列表示,圆点的位置则描述为它所连接的两个格子。规则、视觉元素、网格大小以及初始棋盘状态(如有给定数字)共同构成了对谜题的明确无歧义的描述,并可转换为模型提示(prompt)。
![]()
尽管最近一些最先进的推理模型已转向多模态输入,但我们发现,包括OpenAI o3(OpenAI, 2025)在内的大多数模型,在将9×9谜题准确转换为坐标时仍存在困难。像Enigma(Wang et al., 2025)和VGRP(Ren et al., 2025)等谜题基准强调谜题的视觉方面,要求使用多模态模型。鉴于当前前沿模型在精确识别数独谜题视觉元素方面仍存在挑战,我们选择将所有元素以文本形式精确描述,从而将创造性推理过程与视觉理解能力分离开来。
Sudoku-Bench中每道谜题的文本表示均已预先计算完成。我们提供了从SudokuPad中提取文本描述的代码,以便研究人员将此工具应用于其他谜题。
需要注意的是,许多谜题若能借助视觉推理将大有裨益,有些甚至可能必须依赖视觉理解,因为它们的“破题点”具有几何特性,涉及对称性,或某些规则直接引用了谜题中的形状。一些谜题视觉信息极为密集(见图1右下角),而我们测试过的当前视觉模型尚不足以提取所有特征,例如微小的数字。我们推测,若能通过视觉方式成功解决该基准,将是对当前多模态大语言模型的重大提升。
3.1 专家推理轨迹
一个核心问题是:提升大语言模型的推理能力,是否可以从采用更“类人”的思维方式中获益?在强化学习模型中,基于人类监督的预训练十分常见;而另一方面也有研究表明,在封闭环境中从零开始进行强化学习可能取得更优性能(Hester et al., 2018;Lowe et al., 2017;Ouyang et al., 2022;Silver et al., 2016)。传统数独是一个有趣的领域,因为人类使用的解题策略与基于搜索的求解器存在显著差异(Pelánek, 2011),这种差异在数独变体中尤为明显。
YouTube频道“Cracking the Cryptic”为探索模仿学习(imitation learning)的优势提供了独特机会。该频道发布了超过3,000个视频,详细演示了各种数独变体的解题过程。值得注意的是,主持人必须口头描述自己的思维过程,向观众解释每一步的逻辑推理。一个典型的谜题通常需要主持人约60分钟解完,而频道中一些更难的谜题解题视频甚至超过3小时。
我们构建了一个数据集,包含每次解题的音频转录文本,以及从视频中提取的SudokuPad操作序列。这些操作是通过在SudokuPad上模拟真实操作训练出的机器学习模型,再应用于视频帧提取得到的。该数据集已根据与频道主持人的协议,以MIT许可证发布在HuggingFace2平台上。
3.2 数据集格式
Sudoku-Bench谜题数据集3包含三个子集:challenge_100、nikoli_100 和 ctc。challenge_100 如上所述,构成核心基准测试。额外的谜题数据包括 nikoli_100,这是由Nikoli公司为此基准提供的手工设计的传统数独集合(其中20道已包含在 challenge_100 中)。nikoli_100 的设计旨在突出其解题路径中体现的创造性或类人推理能力,适用于许多将传统数独作为试验平台的研究方法(见第5节)。ctc 子集包含2,565道已在“Cracking the Cryptic”频道中被解答过的数独变体。由于数独变体种类繁多,ctc 中每道谜题的文本表示尚未经过人工校验,在某些情况下,要无歧义地表示棋盘状态可能仍需截图。
3.3 SudokuPad 环境
我们还提供了在智能体(agentic)环境中与SudokuPad交互的工具。SudokuPad支持人类解题者常用的多种笔记策略,例如对格子进行颜色标记(如图2a所示),或在格子中填写候选数字(铅笔标记)。我们开发的简易接口允许模型直接与该应用程序交互,使用这些工具。将SudokuPad纳入推理循环,可能非常适合相关基准测试——例如评估推理模型(包括视觉语言模型)在简单游戏环境中的表现(Paglieri et al., 2024;Ren et al., 2025)。本文中的评估(第4节)采用文本交互方式(仅依赖SudokuPad进行初始谜题数据提取)。我们已将所有SudokuPad工具发布在代码仓库中,供研究人员使用:https://github.com/SakanaAI/Sudoku-Bench。
3.4 评估框架
多步与单次提示(Multi-step and single-shot)
我们在多轮交互和单次提示两种配置下对模型进行评估。
在多轮设置中,我们提示模型分析棋盘,并在每次回复中至少给出一个有效的数字填入位置。需要明确的是,该数字是“已确认提交”的,一旦填入便不可撤销(但在模型自身的推理过程中,允许进行任意程度的内部回溯以推导出该数字)。每当模型给出一个数字后,用户会展示更新后的棋盘状态。此过程持续进行,直到谜题被完全解出,或模型填入了错误的数字为止。在多轮设置中,我们同时跟踪两个指标:解题成功率以及每道谜题中正确填入的数字数量。为了控制上下文窗口的大小,我们在后续对话中仅保留模型最近的5次回复,但始终保留第一条包含谜题描述和指令的用户消息。我们报告的指标为平均解题成功率和平均每道谜题正确填入的数字数。在本次评估中,每个模型对每道谜题仅运行一次测试,因此平均值是基于该数据集中的100道谜题计算得出的。
在单次提示(single-shot)配置中,我们要求模型在一次回复中直接提供完整解答。单次提示模式适用于上下文长度足够大的模型,也适用于对较小的4×4谜题进行更直接的评估。在单次提示设置下,我们仅报告平均解题成功率。
4. 基线性能与分析
我们在Sudoku-Bench上评估了当前最新一代的最先进的大语言模型,结果揭示了这些数独变体对模型构成了巨大挑战。表1总结了各模型在不同谜题尺寸和交互模式下的基准测试表现。即使是o3 mini high和Gemini 2.5 pro preview等领先模型,在完整测试集上的解题成功率也均低于15%。值得注意的是,模型表现随谜题尺寸变化显著:对于较小的4×4谜题,模型的解题率普遍在40%至73%之间;但对于6×6网格,性能急剧下降;而在9×9谜题上,解题率几乎降至零,凸显出复杂度的迅速上升。
![]()
比较单次提示与多步交互两种评估模式,允许迭代反馈虽对小型谜题的解题结果略有提升,但对较大谜题的表现并无实质性改善。两种模式之间的微小差异表明,这些模型的根本困难并不仅仅在于逐步推理能力,而更在于难以有效识别初始的逻辑突破口(“破题点”)。
模型失败类型的分类分析
对模型失败案例的分析揭示了若干反复出现的错误模式,我们在图4中进行了分类。最常见的失败模式是自信地给出错误解答(Incorrect Solution)。其他失败模式包括:放弃求解(Surrender,模型明确表示放弃)、信息缺失(Missing Information,模型错误地声称谜题信息或给定约束不完整)、以及误判矛盾(Claimed Contradiction,模型错误地认为谜题规则中存在矛盾)。其中,“信息缺失”尤为值得注意。由于数独变体在基础模型的训练数据中远不如传统数独常见,新的规则和变体容易使模型产生困惑,尤其因为变体谜题通常起始数字极少(甚至为零),而传统9×9数独至少有17个初始数字。此外,部分模型的回复中缺乏推理过程(No Reasoning Trace),导致我们无法对其错误类型进行细粒度分类;对于其余情况,我们使用Claude-3.5-Haiku将错误解答的回复归类为上述四种错误类型之一。
![]()
![]()
一次成功的解答 尽管模型在处理复杂的“破题点”时常遇到困难,但有时它们也能通过有效缩小搜索空间,在中等复杂度的谜题上取得成功。例如,图5展示了一个6×6的谜题“Sumthings”,Gemini 2.5 Pro Preview成功解出了该题。该模型采用的策略是先将搜索空间缩小到可管理的范围,然后通过搜索找出正确解法。然而,随着谜题复杂度的增加,这种方法的有效性显著下降,此时识别特定的“破题”关键洞察变得至关重要,这一点在Ascension示例(图2)中已得到充分展示。
5. 相关工作
Sudoku-Bench 补充了现有用于评估人工智能高级推理能力的基准测试,特别聚焦于将数独变体作为一个结构化的领域,用以评估创造性与逻辑推理能力。
面向创造性演绎洞察的基准测试
诸如“抽象与推理语料库”(Abstraction and Reasoning Corpus, ARC;Chollet, 2019)等基准测试,通过多样化任务来检验模型在超越模式记忆之外的推理与泛化能力。Sudoku-Bench 同样为每道谜题引入新颖约束,借助持续涌现的独特谜题来抵抗记忆化。与 ARC 不同的是,ARC 强调的是对人类简单但对 AI 困难的任务,而数独变体的难度范围更广,其中一些谜题即使对人类专家解题者也极具挑战性。尽管如此,数独谜题中的逻辑突破口通常清晰可辨,即使是推理新手也能理解,这使得 Sudoku-Bench 成为精确评估创造性推理能力的宝贵资源。
以谜题为核心的推理数据集
已有多个基准专注于通过解谜任务评估推理能力(Giadikiaroglou et al., 2024)。例如,PUZZLES(Estermann et al., 2024)汇集了经典的逻辑谜题;Tyagi 等人(2024)系统分析了大语言模型在网格类谜题上的求解表现;EnigmaEval(Wang et al., 2025)评估了来自谜题竞赛的大规模问题集。近期新增的包括用于视觉网格推理的 VGRP-Bench(Ren et al., 2025)、用于基于规则推理的 Logic Game(Gui et al., 2024),以及用于评估对话代理推理能力的 PuzzlePlex(Long et al., 2024)。BALROG(Paglieri et al., 2024)则在复杂游戏环境中评估大语言模型(LLM)和视觉语言模型(VLM)的推理能力,未来可借助 Sudoku-Bench 提供的工具,将 SudokuPad 作为环境纳入其中进行扩展。
数独作为推理试验平台
标准数独谜题在机器学习研究中已被广泛使用。相关模型包括采用消息传递机制的循环关系网络(Recurrent Relational Networks, Palm et al., 2018)、基于可微SATNet的一致性层(Wang et al., 2019)、掩码去噪与扩散方法(Kim et al., 2025; Ye et al., 2024),以及受 Kuramoto 振子动力学启发的模型(Miyato et al., 2024)。此外,大语言模型通过结构化提示和推理分解技术,已在标准数独上达到人类水平的准确率(Long, 2023)。Shah 等人(2024)通过在求解器生成的步骤序列上进行训练,实现了对传统数独的高解题率。Sudoku-Bench 延续了这一研究传统,通过引入多样化且新颖的谜题约束,使评估能够专门针对多步骤、战略性和创造性推理能力展开。
6. 讨论
工具使用的作用 对模型推理能力的评估,可以根据是否允许使用外部工具(例如约束求解器或代码执行环境)而有所区分。
在不使用工具的情况下,评估重点在于模型自身的内在推理能力,包括逻辑演绎、保持全局一致性,以及在内部生成创造性洞察,类似于人类徒手解谜。这种方法强调纯粹的认知推理能力,也是我们在基线实验中(第4节)主要采用的评估模式。
相反,允许使用工具的评估则测试模型能否将给定的谜题转化为适合外部求解器的形式,有效与这些工具交互,并正确解释求解器的输出结果。对于标准数独谜题,一旦使用求解器便变得非常简单。那些仅包含标准约束(如箭头、笼子等)的变体,也通常可通过代码执行轻松解决。而第三类谜题涉及自然语言理解,难以直接转化为约束满足问题,这类谜题本身对于具备工具使用能力的推理模型而言,就是一个有意义的测试。然而,我们当前的目标是评估模型发现谜题“破题点”所需的推理能力。像图2a中的Ascension这类谜题,若借助工具则很容易解出,但其解题路径将与出题者设计的逻辑过程大相径庭。因此,我们选择的Sudoku-Bench中100道谜题,均用于在不使用外部工具的前提下评估模型。未来的研究可以考虑设立一个独立的“工具使用”赛道,或许配合另一组专门设计的谜题。
结论 我们提出了Sudoku-Bench,这是一个围绕现代数独变体构建的统一基准测试,系统性地考验长视野推理、规则理解与战略规划能力。此外,由于大多数谜题都包含丰富多样的“破题点”,该基准特别适合用于评估创造性推理。基准包含经过精心筛选的谜题语料库及其文本表示,为衡量语言模型应对新颖且高度耦合约束的能力提供了一个可控的测试平台。基线实验表明,前沿大语言模型在不依赖外部工具的情况下,仅能解决不到15%的题目,且在9×9变体上的表现急剧下降——这证明在提升推理能力方面仍有巨大的发展空间。
原文链接:https://arxiv.org/pdf/2505.16135
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.