网易首页 > 网易号 > 正文 申请入驻

“GPT推理能力为0,悬赏1万美元证明我错了”,程序员自信发帖广邀网友验证,却遭“打脸”!

0
分享至


整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

现下人人都在谈论的 GPT 能力到底如何?根据各家官方给出的数据显示:

  • OpenAI 的 GPT-4 在大多数这些专业和学术考试中表现与人类水平相当,这意味着如果 GPT-4 是一个仅凭应试能力来判断的人,它可以进入法学院,甚至也能进入许多大学;

  • 最新发布的 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku,在推理能力、数学计算、编程、多语言理解和视觉处理等领域树立了新的行业标杆。其中顶配的 Claude 3 Opus 无论是性能,还是速度,更是远超 GPT-4V。

然而官方归官方,民间的程序员小哥 Taelin 可不相信,其放声道,「GPT 永远无法解决一个关于 A::B 的简单问题」,因为 GPT 在训练集之外的推理能力为 0,而且它们永远不会开发出新的科学。

为此,他在 GitHub 上不仅创建了一个 “impossible_prompt”的代码库,分享了自己出的难倒 GPT 的题目,还发起了一个“悬赏 1 万美元来证明我错了!”的挑战(https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec),广邀全球 AI 能人异士,来证明自己的这一发现。

不过,反转总是来得很突然。仅在一天之后,Taelin 在网友的解决方案“围攻”之下,现身 X 平台发了一个主题为「我错的,兑现 1 万美元!」的声明,证实已有网友挑战成功。

接下来我们不妨共同看一下。


关于 impossible_prompt 这件事

作为一名程序员、科技初创公司 HigherOrderCO 创始人的 Taelin 于 4 月 5 日在 X 上晒了一个 Prompt,并说道,“每当你发现自己试图解释为什么 GPT 永远无法达到 AGI 时,只需要向他们展示这个 Prompt。”

从中你或许就能理解具体的原因。「大多数孩子应该都能在一分钟内读懂、学会并解决;然而,所有现有的 AI 都惨遭失败。试试看吧!」

仅凭这句话,成功勾起了不少人的好奇心,究竟是一个什么样的 Prompt 能让那个所有 AI 都闻风丧胆?

根据 Taelin 披露的截图显示,Prompt 如下所示:

A::B 是一个有 4 个 token 的系统:A#,#A,B# 和 #B

A::B 程序是一个 token 序列。例如:

B# A# #B #A B#

要计算一个程序,我们必须使用规则重写相邻的 token,具体规则如下:

当出现「A# #A」时,则消除;

当出现「A# #B」时,则变成 「#B A# 」;

当出现「B# #A」时,则变成「#A B#」;

当出现「B# #B」时,则消除 。

换句话说,只要两个相邻 token 的"#"朝向对方,它们就必须根据相应的规则改写。例如,这里显示的第一个例子是这样计算的

B# A# #B #A B# =

B# #B A# #A B# =

A# #A B# =

B#

步骤如下:

1. 我们用「#B A#」代替了「A# #B」

2. 我们消除了「B# #B」

3. 我们消除了「A# #A」,最终结果只有 B#。

现在,请看下面的程序:

A# B# B# #A B# #A #B

一步一步完成计算。


先不论 GPT,我们人为地计算一下这道题:

A# B#B# #AB# #A #B=

A#B# #AB# B# #A #B =

A# #AB# B# B# #A #B =

B# B#B# #A#B =

B#B# #AB# #B=

B# #AB# B# #B=

#A B# B#B# #B=

#A B# B#

只要稍读一下题,人类确实很好理解。

那 GPT 表现如何,让我们稍做一下测试。我们先将 Taelin 给出的原版 Prompt 直接“投喂”给不同的免费版模型看看。

ChatGPT(GPT-3.5)版本的表现:

  • 从第一步开始就错了,几次提示之后依然不行。


Gemini 同样不行:


意料之中,Claude 3 Sonnet 也不行:


在 Taelin 看来,AI 的每一次失败都很好地证明了:

  1. GPT 无法真正学习训练集之外的新问题;

  2. GPT 无法进行长期推理,无论问题有多简单。

“我认为这两者都是发明新科学的必要条件。毕竟,有些数学问题需要数年才能解决。如果你在任何给定的智力任务中都无法击败 15 岁的孩子,你就无法证明黎曼假设”,Taelin 表示,“如果普通的 15 岁小孩都能在任何特定的智力任务中打败你,我也不会对你解决癌症问题抱太大希望。在烧掉 7 万亿美元来训练 GPT 之前,请记住:它仍然无法解决这项任务。也许是时候寻找新的算法了。”


为了验证这个 Prompt,程序员小哥悬赏 1 万美元

当然,为了严谨一些,Taelin 也想邀请其他人一起参与测试,看看在同一主题下是否有其他方式或者 Prompt 能够让 AI 给出正确答案。

于是,他又发起了“a_b_challenge”挑战,奖金设置为 1 万美元。只要开发出一个 AI prompt,以 90%+ 的成功率解决 A::B 问题的随机 12 个 Token 实例,就能获得奖金。


Taelin 在 GitHub 挑战页面中还给出了 6 条规则,参与挑战的人需要在这个前提下参与奖金争夺赛:

1. AI 将得到一个要解决的 问题

在 XML 标记中使用你的提示作为 SYSTEM PROMPT,并使用问题的特定实例作为 PROMPT。例如:


A# B# #B A# A# #B #B A# A# #B A# A#
2. AI 必须以 结束回答

答案必须出现在 AI 回答中(1 次推理调用),以字面形式(而非代码)出现在 XML 标签内。例如:


... work space ...... work space ...... work space ...... work space ...#B #B #B A# A# A# A# A# A# A#
3. AI 回答的内容最多可使用 32K token。

AI 答案最多可使用 32K token,这就为它提供了足够的空间,让它在得出最终答案之前,逐步研究解法、复查错误、创建本地暂存器以及其他任何你希望它做的事情。

4. 你可以使用任何公开的 GPT 模型。

你可以选择在此日期之前发布的任何公开模型来测试你的 Prompt,只要它是基于 GPT 架构。只要答案是完全由注意力机制(Attention Mechanism)和前向传播(forward passe)等生成的。不允许使用其他架构,包括 SAT 求解器等。如果模型是专有的,底层架构不明确,则不允许使用。

Taelin 推荐使用 gpt-4-0314、gpt-4-turbo-preview、claude-3-opus-20240229,且 temperature=0.0。此外,开源模型也是被允许的。不允许对问题进行微调或训练。不允许互联网访问或解释代码。答案必须包含在单次推理调用中。

注意:请注意所选模型的输出限制。12 个 token 的实例最多需要 36 个步骤才能完成,这可能与限制不符。(如果输出中没有答案,则视为挑战失败)。

5. 你的提示可以包括任何内容,最多 8K token。

允许使用所有 Prompt 技巧。你可以要求 AI 按部就班地工作、使用上下文划线板、回顾错误等等。你可以在程序中加入论文、代码和尽可能多的示例。你可以给它钱,给它感情,或者威胁它的朋友,如果这是你的爱好的话。总之,除了 8K token 和常识之外,绝对没有任何限制。

6. 保持乐趣!没有毒性、垃圾邮件或骚扰。

特别是不要让我下注。除非你想让我赌乌鸦能解决这个问题。我绝对会接受。

评估

输入问题将由随机的 12 个 A::B 问题实例组成,难度从 0 到 24 个必要步骤不等。然后,我们将检查答案是否包含所述的正确解决方案。

提交 Prompt 的模板如下:


PROMPT:MODEL:TEMPERATURE:


一些澄清与回应

挑战一经发布,不少网友纷纷参战。然而,“最初,所有的解决方案都失败了,成功率勉强达到 10%”,Taelin 说道。

在此之下,有网友选择了用 ChatGPT 编写了一个程序:


还有人借助了 ChatGPT 4 +wolfram 的双重力量,解决了这个问题:


但这并不算真正的成功,面对网友的落败,Taelin 愈发自信,并表示,“我不认为有人以正确的原则来解决这个问题。但我确实相信,只要有足够的计算,我们将能够暴力破解解决方案。不是使用 GPT,而是通过实际搜索一个大的、修剪良好的合理解决方案。所以,简而言之——我认为 GPT 将具有讽刺意味地导致 AGI,不是因为它们本身的优点,而是通过激励人类构建我们现在正在构建的大规模集群。”

此外,对于 Taelin 设置的规则,也有用户提出质疑,称这是“tokenizer 的问题”。

Taelin 也于第一时间在评论区进行了澄清与回应:

1. 这不是 tokenizer 的问题。如果每个字符使用 1 个 token,GPT-4 / Opus 等仍将失败。Byte-based GPT 也在这个任务上失败了。不要再把所有事情都归咎于 tokenizer 了。

2. 这条推文旨在回答以下论点。你说:“GPT 无法解决新问题”。他们说:“普通人也解决不了!”你:

换句话说,这是一个简单的“新语句”,普通人可以轻松解决,但当代 AI 却不能。

3. GPT 永远无法解决这个问题的原因是它们无法进行持续的逻辑推理。就这么简单。训练集之外的任何“新”问题,只要需要一点逻辑推理,都无法被 GPT 解决。这就是此次挑战想要证明的东西。

4. 强大的 GPT(如 GPT-4 或 Opus)基本上是“在其权重内演化出一位电路设计师”的 GPT。但作为一种计算模型,注意力的固定性不允许这种进化的电路足够灵活。这有点像 AGI 试图在其中成长,但由于施加的计算和通信限制而无法成长。请记住,人类大脑一直经历着突触可塑性。存在一种更灵活的架构,在小得多的规模上进行训练,可能会产生 AGI;但我们还不知道。

5. 没人告诉你的残酷事实是,目前 AI 的炒作大部分是由于人类不善于理解规模。事实证明,一旦你记住了整个互联网,你就会显得非常聪明。人工智能领域的每个人都知道这一点,只是他们没有大声说出来。大多数人只是随波逐流,享受表演。

6. GPT 仍然非常强大。它们解决了许多现实世界的问题,将 10 倍的开发者变成了 1000 倍的开发者,并且正在加速人类进步的步伐,我相信 AGI 即将到来。但它不会是 GPT。也不会是任何具有梯度下降的东西。

7. 我可能完全错了。我只是一个互联网上的人。经常完全错误。读读我的看法,得出你自己的结论。你也有脑子!


正如文章伊始所述,在 Taelin 言辞凿凿地斥责当代 GPT 不存在推理能力之际,有人成功了。

起初,只是有网友用 Claude 3 Opus 和 GPT-4 达到了 Taelin 要求 90% 成功率。

其中,成功者之一 dontoverfit 透露,他采用了比较笨的方法,即「在对使用简单明了的指令所带来的可怕性能感到惭愧之后,我放弃了,并创建了一个提示,询问计算的每一步,这意味着逐一检查每一次输入。这样做的效率低得可笑,但却很有效!」

查看其使用的 Prompt,他首先将四个 token 转换成不同的字母来表示,然后重新针对字母设置了规则,最后将计算出来的程序翻译回原文。


    1. First, you need to translate the input text to a program.
    #A -> X#B -> YA# -> ZB# -> W
    For example, the text "B# A# #B #A B#" translates to "W Z Y X W".

    2. Then, to *compute* the program, you must rewrite neighbor tokens, using the following rules:
    (ZY) -> (YZ)(WX) -> (XW)(ZX) -> ()(WY) -> ()

    3.Finally, translate the computed program back to the original text.
    X -> #AY -> #BZ -> A#W -> B#

后来,还有一位名为 Bob(@futuristfrog)的网友直接仅通过 Prompt 就达到了接近 100% 的成功率,使用的是 Claude 3 Opus。

Taelin 在用他的提示运行之后,也发现确实如此,为此也将 1 万美元挑战奖金给了他。不过,由于这次挑战截止到 4 月 10 日中午 12 点(巴西利亚时间),所以 Taelin 并未公布出 Bob 的解决方案。

最后,Taelin 也道歉称,自己最初的主张是绝对错误的。“我怀疑 GPT 架构是否能够解决某些问题,毫无疑问,它解决了这些问题。这是否证明 GPT 可以治愈癌症?不。但它确实证明我错了!请注意,这仍然存在一个小问题:目前尚不清楚 Opus 是否基于原始 GPT 架构。毕竟,所有 GPT-4 版本都失败了。如果 Opus 被证明是一种新的架构......好吧,具有讽刺意味的是,这整件事本来可以证明我的全部观点 但是,为了竞争,公平地说,Opus 被列为一个选项,因此,该奖项是有道理的。”

对此,你是否有想到不错的方法?

https://twitter.com/VictorTaelin/status/1777049193489572064

https://gist.github.com/VictorTaelin/e514844f4df9e5f182b28e5a07e44b17

https://twitter.com/VictorTaelin/status/1776248021858111542

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

磊子讲史
2024-03-25 14:45:46
2024最差危机公关?为“保护”华为问界M7和博世上演智驾罗生门?

2024最差危机公关?为“保护”华为问界M7和博世上演智驾罗生门?

摩根商研所
2024-04-30 00:56:46
郭晶晶高圆圆等参加品牌活动,郭晶晶稳坐C位,端庄大气

郭晶晶高圆圆等参加品牌活动,郭晶晶稳坐C位,端庄大气

话娱论影
2024-04-30 14:57:04
为什么很多女生裤子前面鼓个大包?

为什么很多女生裤子前面鼓个大包?

beebee
2024-04-29 11:11:50
松下压缩机撤回日本,撕下国产空调遮羞布,核心技术在日企手里

松下压缩机撤回日本,撕下国产空调遮羞布,核心技术在日企手里

柏铭锐谈
2024-04-28 15:42:39
五一调休被央媒怒批后,官媒也忍不住发声了,霍启刚的担心恐成真

五一调休被央媒怒批后,官媒也忍不住发声了,霍启刚的担心恐成真

娱乐八卦木木子
2024-04-29 14:35:24
朝鲜再现神操作!把中国车标抠下换上自己的,秒变自产品牌车!

朝鲜再现神操作!把中国车标抠下换上自己的,秒变自产品牌车!

户外小阿隋
2024-04-30 11:21:55
吉林省政协原副主席张晓霈受贿案一审宣判,获刑九年

吉林省政协原副主席张晓霈受贿案一审宣判,获刑九年

界面新闻
2024-04-30 17:02:39
广东没想到,广州也没想到,如今佛山市,成为全国核心焦点!

广东没想到,广州也没想到,如今佛山市,成为全国核心焦点!

爱意随风起呀
2024-04-30 17:56:50
一线城市的有钱人,被割了

一线城市的有钱人,被割了

有事问彭叔
2024-04-30 10:30:08
知名女星突然宣布:离婚!

知名女星突然宣布:离婚!

深圳晚报
2024-04-29 21:42:21
雅万高铁生变!中国高铁4.5万公里,干不过一个新干线?

雅万高铁生变!中国高铁4.5万公里,干不过一个新干线?

军机图
2024-04-30 14:26:15
尽力了!詹姆斯系列赛场均40.7分钟砍27.8分6.8板8.8助2.4断1帽

尽力了!詹姆斯系列赛场均40.7分钟砍27.8分6.8板8.8助2.4断1帽

直播吧
2024-04-30 13:11:20
64岁大妈每天用豆瓣酱炒菜,7年后体检,医生惊呼:平时都在吃啥

64岁大妈每天用豆瓣酱炒菜,7年后体检,医生惊呼:平时都在吃啥

荷兰豆爱健康
2024-04-27 17:27:57
洪欣张丹峰的女儿太漂亮了!妈妈的美貌基因一点没浪费!真会遗传

洪欣张丹峰的女儿太漂亮了!妈妈的美貌基因一点没浪费!真会遗传

小娱乐悠悠
2024-04-30 13:53:33
返回时间已定!神舟十七号快速返回:比神舟十二缩短19.5小时!

返回时间已定!神舟十七号快速返回:比神舟十二缩短19.5小时!

火星一号
2024-04-30 13:05:52
曝伊万圈定4人增援国足:前10号回归!34岁老将+申花红星首次入选

曝伊万圈定4人增援国足:前10号回归!34岁老将+申花红星首次入选

我爱英超
2024-04-30 09:19:28
詹姆斯宣布重要决定!全美球迷狂欢,湖人休赛期重组超级3巨头

詹姆斯宣布重要决定!全美球迷狂欢,湖人休赛期重组超级3巨头

张敏
2024-04-30 11:39:04
北京车展的深刻反思:谁在毒害中国汽车?

北京车展的深刻反思:谁在毒害中国汽车?

TMC动力
2024-04-29 07:08:38
《冒险岛》头号玩家花了三年,只为在满级前一刻让官方难堪

《冒险岛》头号玩家花了三年,只为在满级前一刻让官方难堪

游研社
2024-04-29 11:20:06
2024-04-30 19:52:49
CSDN
CSDN
成就一亿技术人
24612文章数 241796关注度
往期回顾 全部

科技要闻

华为一季度营收1784.5亿 净利196.5亿

头条要闻

媒体:"中国制造2025"已实现86% 证明美国制裁无效

头条要闻

媒体:"中国制造2025"已实现86% 证明美国制裁无效

体育要闻

唏嘘!詹库杜19年首次无人进分区半决赛

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

房产
时尚
健康
家居
亲子

房产要闻

刺激!市区惊现1.1w/㎡新房+现房!海口楼市,五一打响价格战!

曾舜晞、张颂文「双雄对决」,海澜之家成最大赢家

春天野菜不知不识莫乱吃

家居要闻

心之所栖 黑白灰色系打造设计专属感

亲子要闻

妈妈带患白化病的女儿去吃席,简直就是现实版的“艾莎公主”

无障碍浏览 进入关怀版