无人能替你说出你唇边的话语|读者|文章|推理|编程|上下文|新论文|人工智能

分享至

文章作者：Ben Roy

文章编译：Block unicorn

我写作，写了很多，直到某些我未曾预料到的真谛浮现出来。但我并不认为这对我来说有什么特别之处。这只是人类的运作方式。我们只有将感受说出口，才能真正了解自己的感受。同样，我们只有亲口说出自己的信念，才能真正明白自己的信仰。

当全世界都在追求按时交付的产品时，很难去支持作家、创作者以及你内心的艺术。

最近我一直在思考一件事：最宝贵的莫过于做人。尽可能地做个真正的人。告诉我，这究竟有多难？我们正在以一种我们始料未及的方向，走向一个我们无法预料的结局，去理解活着的意义。

Ben Roy 在这里说了一些我一直想说的话。他先一步领悟到这一点，而且做得更好。他的大脑通过他独特的人生经历来看待世界。他的论点、他去过的地方、他未完成的书。我的大脑也是如此。你的大脑也是如此。没有任何模型能够真正活过一天，输掉一场辩论，或者彻底改变自己曾经坚信的事情。至少目前还没有。

我认识的所有在科技行业工作的人最近都陷入了某种程度的生存危机。人们担心，LLM 会取代所有知识型工作，甚至可能在不久的将来就会发生。

我认为这种焦虑部分是合理的。人工智能实验室在过去六个月里发布了一系列令人印象深刻的更新，整个行业也正经历着翻天覆地的变化，但尽管如此，让我感到困惑的是，我仍然觉得人工智能系统在写作方面的表现非常令人失望。

我想通过这篇文章来阐述我为什么认为情况如此，并由此探讨我认为人类作家在（日益）精英化的人工智能世界中处于什么位置。

首先，我想具体解释一下我所说的“写作”是什么意思，因为这很重要：写作就是把思考写在纸上。它是思想的延伸，通过文字将思想具象化，其目的是将意义从一个人传递给另一个人。

我知道这是一个比较宽泛的起点，所以我们不妨更深入一层，将写作细分为两个子类别：信息性写作和阐释性写作。信息性写作旨在传递事实，涵盖文档、使用手册和客观报道等领域。阐释性写作则旨在分享观点，涵盖散文、观点和评论等领域。

我承认生活比简单的二元对立要复杂得多，而且，是的，每篇文章在信息的呈现方式上都带有一定的主观性，但为了便于讨论，我们假设所有文章都有一个主要意图，那就是这两个类别之一。

LLM 擅长信息性写作。他们可以根据语音通话内容撰写备忘录，总结文章，起草简单的合同等等。这在工作中很有用，但这并非我在此要讨论的重点。我说 LLM 写作能力较弱，指的是它们不擅长诠释性写作。当它们试图以一致的主观视角进行写作时，表现往往不佳。它们很难表达自己的观点。

在继续讨论之前，最后澄清一点：我们以论文作为诠释性写作的唯一例子，这样我们就能就一个具体的写作形式达成共识，并在讨论这些观点时牢记于心；同时，我也会简要介绍一下论文的定义，以确保我们完全理解。

论文（essay）一词源于法语“essai”，意为尝试或努力。其内涵是运用文字解决问题的过程。因此，我们可以说论文是书面形式的挣扎，而目前为止，机器还无法以这种方式写作。我认为出现这种情况有两个原因。我们来逐一探讨。

LLM 写作论文的第一个问题是，整个提示这些系统生成输出的过程误解了写作行为的本质。

人们从根本上来说无法凭空写出好文章，因为写作并非自上而下的过程，并非预先设定好知识，然后让一个 LLM 来生成文章。人工智能代理也无法凭空生成好文章，原因相同。尽管它们的推理过程比人类的提示更加复杂和迭代，但其思维链仍然是为了实现预设的目标。

相比之下，真正的写作是自下而上的。你事先并不知道自己想说什么。这是一个探索的过程，你从一些不成熟的想法开始，以非线性的方式进行思考和完善，最终找到自己真正的想法。

弗兰纳里·奥康纳有一句名言很能说明这一点，她说：“我写作是因为在读自己写的东西之前，我不知道自己到底在想什么。” 我也是如此。我认为人们不能跳过与各种想法搏斗的过程，因为那是支撑优秀写作的核心能量，它蕴含着一种混沌而强大的力量。正是通过这种方式，你才能弄清楚自己相信什么，以及你想如何表达它。

这一点还可以进一步延伸到哲学层面，那就是人脑的运作方式与 LLM 不同。人脑的运作方式更加灵活。丹尼尔·卡尼曼的名著《思考，快与慢》提供了一个有助于解释这种差异的框架。他提出了两种思维模式：系统 1 思维，它快速、自动，由模式识别驱动；以及系统 2 思维，它缓慢、有条理，并且注重反思。

人类的思维模式有两种。LLM 的思维模式也是如此。

对于系统 1 思维而言，人们总是会对他们看到的人、在互联网上看到的帖子或其他任何事物做出快速判断。类似地，逻辑学习模型（LLM）可以接收一个简单的查询，并根据模型的训练结果给出一次性的输出。

对于系统 2 思维而言，人类接收想法，进行思考，并通过有意识的努力产生新的想法。类似地，推理模型可以长时间思考，处理问题，并产生新颖的成果。

两种思维方式的区别在于，LLM 的“思维”或推理是数学上的决定论，而人类的思维则充满了奇妙的混乱。

一旦模型完成训练，其权重就会被保存，其思维过程也随之变为静态。这用一组数字表示，此后这些数字将不再改变。模型进行思考时，会接收输入，并反复地将输入数据投入到一系列数学运算（即权重和运算）中，最终生成输出。这是一种基于统计关联的预测过程，之所以感觉模型是“活的”，是因为在生成词语时，输出过程中会运用伪随机抽样。

如今，当一个人思考时，我们的思维方式更像是将各种想法通过一系列不断变化的“权重”进行过滤，这些权重即我们积累的生活经验以及我们如何不断地解读和重新解读这些经验。这个过程是鲜活的。

我们接收一个输入的想法，然后通过我们人性、记忆、居住过的地方、争论过的事情、认识的人，以及其他无数零碎的生活经历构成的棱镜进行折射，从而同时看到多种融合的、可能的输出结果。这就像下面这张平克·弗洛伊德的专辑封面一样，普通的光线代表输入，彩虹代表输出结果，而棱镜则代表人的大脑。

所以，LLM 和人脑都能思考和写作，这很棒。问题在于，这些机器生成文字的方式导致输出内容缺乏生气。比如，我总能一眼看出别人写的是别人提示过的文章，因为输出内容本身就暴露了这一点。原因在于，LLM 缺乏人类思维在工作（或娱乐）时所特有的视角。

我喜欢用一个视觉类比来比较这两种写作：一篇好的文章就像一座思想的教堂，它融合了精湛的技艺、优美的文化以及时代和地域的独特韵味。而一篇 LLM 的文章则像一座玻璃摩天大楼，它功能齐全，的确是一座建筑。但如果你看它的照片，很难分辨它究竟位于波特兰、亚特兰大还是丹佛，因为它缺乏灵魂。

这里最好的反驳观点是，我只是技能不足。也许我不够聪明，如果我能更巧妙地驾驭 LLM 或大量的编辑 AI 代理，我就能用它们创作出精妙绝伦、令人叹为观止的作品。

也许吧。

我认为，具备写作专业知识的人可以利用 LLM 创作出更好的作品。代理也可以通过迭代循环获得略微更好的作品。但是，LLM 在创作引人入胜的作品方面存在一个上限，因为写作是一个复杂且适应性强的过程，而这些系统是基于对写作的扁平化表示来运行的。

我的下一个观点是，LLM 难以写出有意义的文章，因为他们缺乏背景知识。他们根本无法理解（或处理）一个人表达观点时所涉及的大量信息。

我承认这些模型在某些领域展现出了博士级别的智能。它们能赢得数学奥林匹克竞赛。它们接受过大部分有记载历史的训练。毫无疑问，它们那种外星认知的形式令人印象深刻，但就写作而言，它与你我大脑的神经网络根本无法相提并论。

让我用一张图来更清楚地解释这个点

如果你写一篇文章，过程中有三个变量：作为作者的我自己、我的读者以及文章主题。而且，这三个变量都在不断变化。

人是动态的，总是处于变化之中。从我的感受、我正在阅读的内容，到随机的情绪波动和思维偏见，所有的一切都会影响我的写作方式。

读者是动态的，因为他们与阅读的关系也在不断演变。注意力持续时间会改变，内容形式的流行度也会起起伏伏，一切都在变化之中。例如，熟悉人工智能的人会注意到，人工智能的输出结果中往往会包含大量的破折号，这反过来又让作者对使用破折号心存顾虑——他们不希望自己的作品被认为“仅仅”是人工智能生成的。

话题的动态性也会因讨论内容的不同而有所差异。有些学科，比如古代史，相对比较静态，但总的来说，世界是一个不断变化的世界。

更进一步来说，这些变量之间的关系也在不断变化！作者通过长期的写作塑造读者的预期，反过来，当读者对某个主题表现出兴趣时，也会影响作者的写作方向。随着时间的推移和新信息的出现，作者和读者对某个主题的看法也会不断演变。

总而言之：写文章涉及很多社会复杂性，而 LLM 对其中大部分复杂性的了解有限，这限制了他们以人类的视角或代表人类的视角进行写作的能力。

此外，认为 LLM 缺乏背景信息的观点不仅仅是原始数据的问题，更是一个关系问题。人类作家与 LLM 对信息的关系有着本质的不同。我没有关于自身的数据……我就是我。我对我的读者有一种直觉。当我写作时，我并非对某个主题了如指掌，而是关心它。

LLM 的运作方式与我不同。他们有自己的观点，但不是我的观点。他们有一些背景信息，或许信息量过大，但这些信息并非玩好这场游戏的关键所在。而且，由于文章本质上只是在特定时刻，一个人的大脑在各种变量影响下呈现出的快照，这使得人类写作比某些人认为的更有说服力。

在和朋友们讨论过这些想法之后，我听到了一些针对我对 LLM 和写作的质疑的有力反驳。其中最有说服力的观点是，当人工智能系统能够访问无限（或远大于无限）的上下文窗口时，所有问题都将迎刃而解。

这种思路认为，如果 LLM 能够为用户提供例如 5 亿个 token 作为上下文窗口，那么我们的机器伙伴就能获取关于我们的一切信息：我们过去的照片、文字、社交媒体历史记录、健康数据、通过可穿戴眼镜等设备记录的记忆等等。然后，它们会将所有这些数据综合起来，模拟我们的决策过程，进而代表我们进行写作（和思考）。

我认为这确实有一定道理。目前人工智能代理在启动会话时就能访问记忆文件、对话历史、活跃技能和其他参考数据，这无疑预示着未来的发展方向。请看下图，我做了个简要说明。

我必须说，我觉得这些东西非常酷，而且我认为通过结合 LLM 架构和更大的上下文窗口，我们将更接近于模拟人类意识。但是，无论构建一个具有特定特征的代理多么令人着迷，我仍然不相信这些系统能够代表我写作。

我对这种超大上下文窗口的论点有两点不同意见，这两点都更多地是哲学层面的，而不是技术层面的。

首先，即使拥有无限的上下文窗口，语言学习模型（LLM）在信息层级方面也存在问题。信息的重要性以及这种重要性在不同上下文中的变化并不清晰。例如，Claude 可能可以访问我的参考文献，但它不知道何时以及如何使用它们。它可能了解语法和写作规则，但它不知道何时应该转述，何时应该直接引用。而且，任何规则都存在太多例外情况，根本无法将人的直觉系统化。

其次，我认为将 LLM 与人类大脑进行比较具有误导性。我们之前已经讨论过这个问题。这是一个类比推理导致错误结论的例子，因为 LLM 的运作方式与人类大脑的运作方式不同。

我确实认为 LLM 是很有用的工具。我用自己大约 2 万字的写作素材作为参考，制定了一套规则，指导代理如何代表我做出编辑决定，然后以此为基础，将我的想法与目前最好的模型进行对比。结果很有意思。但总感觉哪里不太对劲。

用音乐术语来说，我觉得 LLM 就像一支翻唱乐队，他们试图演奏一首歌，虽然某些方面“正确”，但他们永远无法真正展现出这首歌的精髓，因为他们缺乏原唱者身上蕴含的灵魂。我或许会很享受他们的音乐，但我不会花 400 美元买票去看 PISS 的现场演出。

人工智能极端主义者会加倍坚持，认为解决这些问题只需要额外的上下文信息，所以总有一天，一个 LLM 就能轻松吸收海量数据，然后一切就搞定了。显然，这样一来，关于人类的一切都可以建模了。

我不同意。

我甚至不相信我们人类能够清晰地理解自身，从而清晰地表达出人工智能模仿我们所需的所有相关背景信息。

我最喜欢的例子是希腊语中的“错觉性错觉”（apophenia），它指的是人类能够从随机数据中感知到联系或模式。我们不知道为什么会发生这种情况，但正是我们这种与生俱来的能力，使得我们在云朵中看到不同的形状，例如，你可能看到的是巴特·辛普森，而我看到的是皮卡丘。这种创造性的表达方式对我们每个人来说都是独一无二的。那么，我们该如何模拟这种能力呢？

这有点讽刺意味，但就创造性活动而言，我们的非理性或许是我们最可靠的优势。在人工智能系统飞速发展的世界里，这种缺陷反而是我们最大的优势，因为它使我们难以被建模。

亚当·马斯特罗亚尼去年在一篇博文中对此做了很好的阐述，他说：“很多人担心人工智能会取代人类作家。但我知道一些电脑不知道的东西，那就是我脑海中的感觉。没有文字、没有.jpg 文件、没有.csv 文件包含这种信息，因为它无法言喻。我的工作就是从这无法言喻的东西中抽取一小块，并把它表达出来。”

好了，说了这么多。针对我刚才提出的观点，还有其他一些反驳意见。我只想再回应一个。

有些人会提到编程，并指出它像写作一样是一项复杂的创造性活动，然后就会提出这样的问题：如果 LLM 已经改变了编程的方式，以至于它被“解决”了，为什么写作就不能被解决呢？

我并非编程专家，但我确实看到 LLM 改变了编程活动。我对此的质疑是，编程和写作的最终目的不同。

评价写作的标准在于它是否能引起读者的共鸣。写作的本质是为他人打造一种娱乐体验。而代码的评价标准则是正确性。代码注重功能性，而写作则注重体验性、具体性，而写作则更偏向于空想。

编写软件来完成一项任务肯定有多种方法，但需要遵循的标准比编写标准要多得多，而且，尽管工程师很关心代码的可读性，但代码的最终受众是编译器，而不是人。

我认为 LLM 在编码方面表现出色，因为它是一个连贯的系统：代理可以创建代码、运行测试、迭代，然后验证代码是否能够执行。但对于写作而言，情况并非如此，因为写作并非计算活动，而是解释活动。因此，如今 LLM 编写的代码大多具有连贯性，即使出现问题，也可以进行具体的修改。而 LLM 编写的文本则远没有代码那么连贯。

我喜欢用电影《心灵捕手》里的酒吧场景来比喻 LLM 的写作成果：一个书呆子气的哈佛学生发表了一番看似高深的美国历史论述，但结果却发现他是在剽窃别人的想法。威尔问道：“你打算把整篇文章都抄袭给我们吗？你对这个问题有自己的想法吗？”

这就是和 ChatGPT 对话的感觉。与其说是真正的智能，不如说是智能的假象。

最后，我想说我对人工智能持乐观态度。我认为 LLM 是对人类智能的补充，而不是替代。它们是非常有用的工具，我现在在写作中会用到它们来激发灵感，有时也会用来获取编辑反馈。

话虽如此，在人工智能系统取得显著进步的今天，我仍然认为它们无法取代人类作家。人类有一种难以言喻的独特魅力，我们能够基于毕生经验构建出独一无二的世界模型，而我认为任何机器都无法复制这种魅力。

现在，我可能错了吗？也许吧。GPT-33 能写出完美的文章吗？我们拭目以待。模型总是能给我带来惊喜，我相信以后还会继续。

但我的观点是，好的写作需要一种只有人类才具备的东西，那就是经历挣扎并从身处生活困境的角度来讲述这种挣扎的能力。它是人与人之间的一种意义构建，在我看来，只要人类作为一个物种存在下去，就会有读者。

在那之前，继续写作吧。

如果觉得文章好看，你可以将Block unicorn 标注星标和添加桌面。

本文提供的信息仅用于一般指导和信息目的，本文的内容在任何情况下均不应被视为投资，业务，法律或税务建议。对于根据本文做出的个人决定，我们不承担任何责任，我们强烈建议您在采取任何行动之前进行自己的研究。尽管已尽最大努力确保此处提供的所有信息都是准确的和最新的，但可能会发生遗漏或错误。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.