“GPT推理能力为0，悬赏1万美元证明我错了”，程序员自信发帖广邀网友验证，却遭“打脸”！|逻辑推理|gpt推理

分享至

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

现下人人都在谈论的 GPT 能力到底如何？根据各家官方给出的数据显示：

OpenAI 的 GPT-4 在大多数这些专业和学术考试中表现与人类水平相当，这意味着如果 GPT-4 是一个仅凭应试能力来判断的人，它可以进入法学院，甚至也能进入许多大学；
最新发布的 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku，在推理能力、数学计算、编程、多语言理解和视觉处理等领域树立了新的行业标杆。其中顶配的 Claude 3 Opus 无论是性能，还是速度，更是远超 GPT-4V。

然而官方归官方，民间的程序员小哥 Taelin 可不相信，其放声道，「GPT 永远无法解决一个关于 A::B 的简单问题」，因为 GPT 在训练集之外的推理能力为 0，而且它们永远不会开发出新的科学。

为此，他在 GitHub 上不仅创建了一个 “impossible_prompt”的代码库，分享了自己出的难倒 GPT 的题目，还发起了一个“悬赏 1 万美元来证明我错了！”的挑战（https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec），广邀全球 AI 能人异士，来证明自己的这一发现。

不过，反转总是来得很突然。仅在一天之后，Taelin 在网友的解决方案“围攻”之下，现身 X 平台发了一个主题为「我错的，兑现 1 万美元！」的声明，证实已有网友挑战成功。

接下来我们不妨共同看一下。

关于 impossible_prompt 这件事

作为一名程序员、科技初创公司 HigherOrderCO 创始人的 Taelin 于 4 月 5 日在 X 上晒了一个 Prompt，并说道，“每当你发现自己试图解释为什么 GPT 永远无法达到 AGI 时，只需要向他们展示这个 Prompt。”

从中你或许就能理解具体的原因。「大多数孩子应该都能在一分钟内读懂、学会并解决；然而，所有现有的 AI 都惨遭失败。试试看吧！」

仅凭这句话，成功勾起了不少人的好奇心，究竟是一个什么样的 Prompt 能让那个所有 AI 都闻风丧胆？

根据 Taelin 披露的截图显示，Prompt 如下所示：

A::B 是一个有 4 个 token 的系统：A#，#A，B# 和 #B

A::B 程序是一个 token 序列。例如：

B# A# #B #A B#

要计算一个程序，我们必须使用规则重写相邻的 token，具体规则如下：

当出现「A# #A」时，则消除；

当出现「A# #B」时，则变成「#B A# 」；

当出现「B# #A」时，则变成「#A B#」；

当出现「B# #B」时，则消除。

换句话说，只要两个相邻 token 的"#"朝向对方，它们就必须根据相应的规则改写。例如，这里显示的第一个例子是这样计算的

B# A# #B #A B# =

B# #B A# #A B# =

A# #A B# =

步骤如下：

1. 我们用「#B A#」代替了「A# #B」

2. 我们消除了「B# #B」

3. 我们消除了「A# #A」，最终结果只有 B#。

现在，请看下面的程序：

A# B# B# #A B# #A #B

一步一步完成计算。

先不论 GPT，我们人为地计算一下这道题：

A# B#B# #AB# #A #B=

A#B# #AB# B# #A #B =

A# #AB# B# B# #A #B =

B# B#B# #A#B =

B#B# #AB# #B=

B# #AB# B# #B=

#A B# B#B# #B=

#A B# B#

只要稍读一下题，人类确实很好理解。

那 GPT 表现如何，让我们稍做一下测试。我们先将 Taelin 给出的原版 Prompt 直接“投喂”给不同的免费版模型看看。

ChatGPT（GPT-3.5）版本的表现：

从第一步开始就错了，几次提示之后依然不行。

Gemini 同样不行：

意料之中，Claude 3 Sonnet 也不行：

在 Taelin 看来，AI 的每一次失败都很好地证明了：

GPT 无法真正学习训练集之外的新问题；
GPT 无法进行长期推理，无论问题有多简单。

“我认为这两者都是发明新科学的必要条件。毕竟，有些数学问题需要数年才能解决。如果你在任何给定的智力任务中都无法击败 15 岁的孩子，你就无法证明黎曼假设”，Taelin 表示，“如果普通的 15 岁小孩都能在任何特定的智力任务中打败你，我也不会对你解决癌症问题抱太大希望。在烧掉 7 万亿美元来训练 GPT 之前，请记住：它仍然无法解决这项任务。也许是时候寻找新的算法了。”

为了验证这个 Prompt，程序员小哥悬赏 1 万美元

当然，为了严谨一些，Taelin 也想邀请其他人一起参与测试，看看在同一主题下是否有其他方式或者 Prompt 能够让 AI 给出正确答案。

于是，他又发起了“a_b_challenge”挑战，奖金设置为 1 万美元。只要开发出一个 AI prompt，以 90%+ 的成功率解决 A::B 问题的随机 12 个 Token 实例，就能获得奖金。

Taelin 在 GitHub 挑战页面中还给出了 6 条规则，参与挑战的人需要在这个前提下参与奖金争夺赛：

1. AI 将得到一个要解决的问题

在 XML 标记中使用你的提示作为 SYSTEM PROMPT，并使用问题的特定实例作为 PROMPT。例如：

A# B# #B A# A# #B #B A# A# #B A# A#
2. AI 必须以结束回答

答案必须出现在 AI 回答中（1 次推理调用），以字面形式（而非代码）出现在 XML 标签内。例如：

... work space ...... work space ...... work space ...... work space ...#B #B #B A# A# A# A# A# A# A#
3. AI 回答的内容最多可使用 32K token。

AI 答案最多可使用 32K token，这就为它提供了足够的空间，让它在得出最终答案之前，逐步研究解法、复查错误、创建本地暂存器以及其他任何你希望它做的事情。

4. 你可以使用任何公开的 GPT 模型。

你可以选择在此日期之前发布的任何公开模型来测试你的 Prompt，只要它是基于 GPT 架构。只要答案是完全由注意力机制（Attention Mechanism）和前向传播（forward passe）等生成的。不允许使用其他架构，包括 SAT 求解器等。如果模型是专有的，底层架构不明确，则不允许使用。

Taelin 推荐使用 gpt-4-0314、gpt-4-turbo-preview、claude-3-opus-20240229，且 temperature=0.0。此外，开源模型也是被允许的。不允许对问题进行微调或训练。不允许互联网访问或解释代码。答案必须包含在单次推理调用中。

注意：请注意所选模型的输出限制。12 个 token 的实例最多需要 36 个步骤才能完成，这可能与限制不符。(如果输出中没有答案，则视为挑战失败）。

5. 你的提示可以包括任何内容，最多 8K token。

允许使用所有 Prompt 技巧。你可以要求 AI 按部就班地工作、使用上下文划线板、回顾错误等等。你可以在程序中加入论文、代码和尽可能多的示例。你可以给它钱，给它感情，或者威胁它的朋友，如果这是你的爱好的话。总之，除了 8K token 和常识之外，绝对没有任何限制。

6. 保持乐趣！没有毒性、垃圾邮件或骚扰。

特别是不要让我下注。除非你想让我赌乌鸦能解决这个问题。我绝对会接受。

评估

输入问题将由随机的 12 个 A::B 问题实例组成，难度从 0 到 24 个必要步骤不等。然后，我们将检查答案是否包含所述的正确解决方案。

提交 Prompt 的模板如下：

PROMPT:MODEL:TEMPERATURE:

一些澄清与回应

挑战一经发布，不少网友纷纷参战。然而，“最初，所有的解决方案都失败了，成功率勉强达到 10%”，Taelin 说道。

在此之下，有网友选择了用 ChatGPT 编写了一个程序：

还有人借助了 ChatGPT 4 +wolfram 的双重力量，解决了这个问题：

但这并不算真正的成功，面对网友的落败，Taelin 愈发自信，并表示，“我不认为有人以正确的原则来解决这个问题。但我确实相信，只要有足够的计算，我们将能够暴力破解解决方案。不是使用 GPT，而是通过实际搜索一个大的、修剪良好的合理解决方案。所以，简而言之——我认为 GPT 将具有讽刺意味地导致 AGI，不是因为它们本身的优点，而是通过激励人类构建我们现在正在构建的大规模集群。”

此外，对于 Taelin 设置的规则，也有用户提出质疑，称这是“tokenizer 的问题”。

Taelin 也于第一时间在评论区进行了澄清与回应：

1. 这不是 tokenizer 的问题。如果每个字符使用 1 个 token，GPT-4 / Opus 等仍将失败。Byte-based GPT 也在这个任务上失败了。不要再把所有事情都归咎于 tokenizer 了。

2. 这条推文旨在回答以下论点。你说：“GPT 无法解决新问题”。他们说：“普通人也解决不了！”你：

换句话说，这是一个简单的“新语句”，普通人可以轻松解决，但当代 AI 却不能。

3. GPT 永远无法解决这个问题的原因是它们无法进行持续的逻辑推理。就这么简单。训练集之外的任何“新”问题，只要需要一点逻辑推理，都无法被 GPT 解决。这就是此次挑战想要证明的东西。

4. 强大的 GPT（如 GPT-4 或 Opus）基本上是“在其权重内演化出一位电路设计师”的 GPT。但作为一种计算模型，注意力的固定性不允许这种进化的电路足够灵活。这有点像 AGI 试图在其中成长，但由于施加的计算和通信限制而无法成长。请记住，人类大脑一直经历着突触可塑性。存在一种更灵活的架构，在小得多的规模上进行训练，可能会产生 AGI；但我们还不知道。

5. 没人告诉你的残酷事实是，目前 AI 的炒作大部分是由于人类不善于理解规模。事实证明，一旦你记住了整个互联网，你就会显得非常聪明。人工智能领域的每个人都知道这一点，只是他们没有大声说出来。大多数人只是随波逐流，享受表演。

6. GPT 仍然非常强大。它们解决了许多现实世界的问题，将 10 倍的开发者变成了 1000 倍的开发者，并且正在加速人类进步的步伐，我相信 AGI 即将到来。但它不会是 GPT。也不会是任何具有梯度下降的东西。

7. 我可能完全错了。我只是一个互联网上的人。经常完全错误。读读我的看法，得出你自己的结论。你也有脑子！

正如文章伊始所述，在 Taelin 言辞凿凿地斥责当代 GPT 不存在推理能力之际，有人成功了。

起初，只是有网友用 Claude 3 Opus 和 GPT-4 达到了 Taelin 要求 90% 成功率。

其中，成功者之一 dontoverfit 透露，他采用了比较笨的方法，即「在对使用简单明了的指令所带来的可怕性能感到惭愧之后，我放弃了，并创建了一个提示，询问计算的每一步，这意味着逐一检查每一次输入。这样做的效率低得可笑，但却很有效！」

查看其使用的 Prompt，他首先将四个 token 转换成不同的字母来表示，然后重新针对字母设置了规则，最后将计算出来的程序翻译回原文。

1. First, you need to translate the input text to a program.#A -> X#B -> YA# -> ZB# -> WFor example, the text "B# A# #B #A B#" translates to "W Z Y X W".2. Then, to *compute* the program, you must rewrite neighbor tokens, using the following rules:(ZY) -> (YZ)(WX) -> (XW)(ZX) -> ()(WY) -> ()3.Finally, translate the computed program back to the original text.X -> #AY -> #BZ -> A#W -> B#

后来，还有一位名为 Bob（@futuristfrog）的网友直接仅通过 Prompt 就达到了接近 100% 的成功率，使用的是 Claude 3 Opus。

Taelin 在用他的提示运行之后，也发现确实如此，为此也将 1 万美元挑战奖金给了他。不过，由于这次挑战截止到 4 月 10 日中午 12 点（巴西利亚时间），所以 Taelin 并未公布出 Bob 的解决方案。

最后，Taelin 也道歉称，自己最初的主张是绝对错误的。“我怀疑 GPT 架构是否能够解决某些问题，毫无疑问，它解决了这些问题。这是否证明 GPT 可以治愈癌症？不。但它确实证明我错了！请注意，这仍然存在一个小问题：目前尚不清楚 Opus 是否基于原始 GPT 架构。毕竟，所有 GPT-4 版本都失败了。如果 Opus 被证明是一种新的架构......好吧，具有讽刺意味的是，这整件事本来可以证明我的全部观点但是，为了竞争，公平地说，Opus 被列为一个选项，因此，该奖项是有道理的。”

对此，你是否有想到不错的方法？

https://twitter.com/VictorTaelin/status/1777049193489572064

https://gist.github.com/VictorTaelin/e514844f4df9e5f182b28e5a07e44b17

https://twitter.com/VictorTaelin/status/1776248021858111542

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行，特邀近 50 位技术领袖和行业应用专家，与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.