#时间深度 #人工智能
![]()
图片通过AI生成
人工智能不是历史的断裂,而是智能的延续,信息被系统地排列。
主要要点
人工智能是人类数千年来构建的认知系统的延续。
当信息被组织——目录、索引、元数据——并超越人类尺度时,它会从大脑迁移到系统。
现代人工智能延续了这一历史趋势,不同的是,今天的算法能够基于训练数据统计推断程序。
公元前58年,西塞罗的住所遭到洗劫。这位罗马政治家从流放归来时发现自己的财产遭到破坏;他的卷轴杂乱、撕裂、散落。库假设有秩序、模式,某种使其合理且可访问的东西。西塞罗的时代是混乱。
提兰尼奥登场了,他是一位希腊文学和图书馆专家,拥有约三万卷卷轴,是著名的亚里士多德专家——事实上,正是负责修复这位哲学家破败图书馆的人,藏书被运往罗马。提兰尼奥介入,整理西塞罗的混乱。他识别卷册,修复损坏,整理卷轴,并制作标题标签。西塞罗对这种转变感到惊叹。
“你会对提兰尼奥在我藏书中的精彩布置感到惊讶,”西塞罗写信给他的朋友阿提库斯。当作品完成时,他的欣赏几乎到了神秘的境界。“自从提拉尼奥整理了我的书,”他写道,“这房子似乎有了灵魂。”
这是个诗意但拙劣的翻译。西塞罗使用了拉丁语单词
mens——不是“灵魂”,而是“心灵”。另一种译文说,这座房子“恢复了智慧”。他说的不是提兰尼奥的智慧,而是提兰尼奥强加给图书馆的智慧,这个结构反映了提兰尼奥,但现在独立于他存在。
一旦整理好,西塞罗的图书馆就拥有一种可辨识的——即使是人工的——智能。它现在有了自己的意识。如果布置得当,图书馆可以提出联系、揭示模式、回答问题,并综合不同的想法。这促进并扩展了西塞罗的思维,超出了他生物大脑自身所能承受的范围。
但图书馆的情报并不依赖于提兰尼奥或西塞罗的持续存在。现在任何人都可以使用它。组织结构本身展现了连贯性——例如,标题标签表示位置,类别代表关系。这些都是可以学习和遵循的程序。正如三段论的有效性不依赖于谁陈述它,一个组织良好的图书馆通过非人格作来运作。一旦智力工作变成程序化,任何人都可以跟随流程。
我是斜杠青年,一个PE背景的杂食性学者!♥致力于剖析如何解决我们这个时代的重大问题!♥使用数据和研究来解真正有所作为的因素!
积累的信息会提示使得其易于理解的系统和安排。正如
《连线》联合创始人凯文·凯利在
《科技想要什么》中所论述的,“我们作为人类的角色,就是引导技术沿着它自然想走的道路前进。”我们所说的人工智能,是自人类开始组织图书馆和归档数据以来不断积累压力的最新表现——这意味着人工智能的诞生地并非硅谷;更像是古代近东。
为了让你明白我的意思,我想回顾过去几千年,关注人类如何组织和处理信息,以及越来越多的数据如何提示了管理这些壮举的新、更稳健的方法。我们将沿着一条穿越古代和中世纪世界、早期现代和现代时代,最终追溯到我们今天的道路。在此过程中,我们将看到不同解决方案如何逐步推动我们走向机器学习和大型语言模型,这并非必然,而是人类根据数据管理中固有的建议解决问题的结果。
最初的搜索引擎
三千三百年前,舒皮卢利乌玛一世从他的首都哈图沙统治赫梯帝国。他的宫殿内设有一个藏有多达7000块泥板的图书馆,这些泥板经过精心整理和编目。他保留这份档案是为了帮助自己的决策。例如,当图坦卡蒙法老去世,王后需要新的王室配偶时,舒皮卢利乌玛可以引用与埃及的现有条约,以判断该安排是否值得认真考虑。
“赫梯国王能够在他们的石板室订购特定的泥板,”古代近东学者西奥·范登豪特写道。怎么做到的?Ḫattuša档案员开发了目录和相应的元数据——标题取自每篇文本的首字,内容简要描述,体裁分类等。有人可以扫描目录,发现他想要的东西,然后取出一块或一系列平板电脑供参考。在谷歌和大型语言模型盛行的时代,任何知识只需几次按键,这似乎并不引人注目。但在公元前2千年,这种回忆令人震惊。
随着统治者收集和部署的数据量不断增加,解决方案也需要跟上步伐。当亚述巴尼拔统治新亚述帝国时,这项工作要重得多,时间是2700年前。亚述巴尼拔是一位冷酷无情的领主,羞辱敌人,猎杀狮子作为娱乐,他同时也是——颇为不协调?——一个书迷。他拥有一支书记员菌队,征服邻近王国时,珍视书籍作为掠夺品。
![]()
来自亚述巴尼拔图书馆(约公元前1500-539年)的楔形文字泥板现收藏于伦敦大英博物馆。(图片来源:维基共享资源)
考古学家在19世纪发掘出了亚述巴尼拔在尼尼微的宫殿。他们发现了数千件作品,分布在约3万块泥板上——涵盖预兆、仪式、语言、医学等内容的文本。亚述巴尼拔的档案管理员面临的挑战是整理所有这些信息。档案管理员制作清单和目录,贴上标识体裁和内容的标签,并利用篮子、书架和墙壁壁龛开发了归档系统。他们甚至将新购入的物品记录在可擦除和重复使用的蜡质写字板上:这些古老的数据库可以实时更新。像亚述巴尼拔这样的图书馆组织得当,可以存储数千份文件——分类、可搜索,并在需要时随时使用。一个由泥土和凉鞋皮革组成的网络。
随着持有地的增加,游戏愈发激烈。亚述巴尼拔三百五十年后,亚历山大图书馆面临着整理成千上万卷纸草卷轴的挑战。亚历山大图书馆员采用了不同形式的元数据:为卷轴附加标题标签,建立分类和体裁,将相似书籍集中存储,并编纂了庞大的120卷字母目录,提供作者姓名、职业、行数等信息。在他那本俏皮命名的书
《索引:历史》中,伦敦大学学院教授丹尼斯·邓肯将整个作称为“希腊大数据”。
注意一个新出现的模式:解决方案在不同世纪和文化中极为相似,因为问题是持续不断的。积累的信息需要易于理解的组织和内部逻辑。一旦这种逻辑建立起来,知识就变成了程序化的。分类、检索和关联成为可以独立于任何个人学习和重复的作。
古腾堡加码了
13世纪欧洲学者在研究不断扩展的藏品时,自然也面临着类似的挑战。牛津的罗伯特·格罗塞泰斯特寻求从他广泛的阅读中获取知识的方法。他设计了一个详尽的表格索引,收录了他在古典和教父文献中遇到的所有主题。邓肯将其描述为“一个关于羊皮纸的谷歌,将主题放大到整个已知文献中。”大约在同一时期,在巴黎,圣谢尔的休将圣经拆解,重新排列成一个超过一万个术语的庞大字母索引。
不久之后,这些索引就演变成了书后面的技术和参考书,从此为学者们提供了铺平道路——而且正是在关键时刻。到了15世纪中叶,印刷技术已经传入。这引发了信息的爆炸,加剧了组织和可发现性的压力。
正如法国历史学家弗雷德里克·巴比耶在
古腾堡的《欧洲》中所说,印刷的出现创造了“大众媒体化现象”。研究估计,在印刷术出现前的900年里,欧洲抄写员大约创作了1100万册书籍。相比之下,古腾堡之后的150年里,印刷机的印刷量超过2亿册。哈图沙和亚历山大城的档案管理员和图书馆员能在藏书中找到新兴的秩序,但这些藏品与大量印刷品相比显得微不足道。学者们现在会怎么做?
旧答案找到了新的应用。哥伦布的私生子埃尔南多·科隆在西班牙塞维利亚建立了一座拥有15,000多本书的图书馆。更令人印象深刻的是他设计的模拟超文本和超链接网络,用于导航他的收藏。
问题是跟上节奏;信息往往比我们能管理的速度更快地积累——这种压力在现代社会只会越来越大。
由于藏书众多且时间有限,图书馆的读者需要一个方式来决定哪些书值得阅读。科隆的《摘要集》(
Libro de los Epítomes)跨越多卷,提供了他收藏作品的精简版,以及内容细节、作者传记和写作风格等元数据。
这些摘要都与科隆开发的其他目录进行了交叉核对。他的《主题书》(
Libro de las Materias)不仅编目了书籍的广泛主题,还涵盖了每本书中涵盖的所有个别主题。通过使用
材料学,研究者可以自由地跨越作者和体裁等范畴,追踪一个主题的历史、哲学、神学、诗歌、圣经等领域。突然间,书籍的无处不在不再是负担,而是益处,因为索引可以帮助读者找到精选部分,同时鼓励顺畅的偶然。
16世纪的瑞士科学家康拉德·盖斯纳也以类似方式解决了这个问题。在二十多岁时,盖斯纳设想了一座普世知识图书馆。他花了三年时间,编写了详尽的注释和按字母顺序编纂的书目——《
通用图书馆》(Bibliotheca universalis),总计1300页,收录了约10000篇著作,作者3000位。三年后,他又编纂了《
潘德克塔鲁姆》,这是一本庞大的参考书目索引。
格罗塞泰斯特、休、科隆和盖斯纳等人所开发的解决方案固有模式与古代世界相似,但适应了信息量不断增加的复杂挑战。问题是跟上节奏;信息往往比我们能管理的速度更快地积累——这种压力在现代社会只会越来越大。
机电互联网
到了19世纪末,知识的工业化重塑了信息格局。由蒸汽驱动的旋转印刷机驱动的机构不断发展,书籍和文章数量超过了读者的承受能力。正如有进取心的图书馆员和档案管理员用新颖的解决方案应对当时的困难,新一代也在寻找适应溢出的方法。
保罗·奥特莱特1868年出生于比利时,16岁时被任命为耶稣会学校的图书管理员。他后来谈到图书馆的编目系统时说:“这似乎是一种奇迹,”这台仪器让我能够使用所有这些书籍。”
但奥特莱已经看出,传统目录无法抵挡工业化出版的冲击。解决方案是:如果你把书籍拆解成最小的特征,从而原子化它们呢?研究人员随后可以根据自身需求访问关键信息,并以新的、有用的方式进行综合。
奥特莱特解释道:“理想状态是剥去每篇文章或章节中那些精美的语言、重复或填充,并将新颖且丰富知识的内容单独收集在卡片上。”
在他看来,信息可以归结为四个关键组成部分:事实、解释、统计数据和来源。奥特莱最初尝试从书本上剪下行条,贴到索引卡上。有了概念验证,他后来开始在卡片上打字输入信息。
![]()
保罗·奥特莱(中)于1930年苏黎世书目会议上。(图片来源:Mundaneum / 维基共享资源)
本质上,奥特莱解开了书本,提取内容以换另一种方式。但他真正的突破不仅仅是原子化。传统的图书馆分类遵循层级结构。例如,杜威十进制系统遵循线性路径,从广泛的类别开始,逐步缩小到具体的范畴。这往往以不自然的方式让话题变成便当盒。通过放弃标准分类,Otlet可以用多个主题、多个时间段和其他相关标识符标记单个事实。突然间,分类既可以横向又线性地进行。
哈图沙和亚历山大城的档案管理员将知识程序化;奥特莱特创建了更为健全的程序,以满足信息快速增长的需求。在19世纪90年代,奥特莱特打造了埃尔南多·科隆愿景的工业规模化版本。当奥特莱和他的商业伙伴在1900年巴黎博览会上首次亮相他们的作品时,他们已经制作了超过300万张索引卡,这仅为最终总数1500万张的五分之一。他们的目标,正如奥特莱特所说,是“所有所有时期、所有语言、所有主题的著作清单”——整齐地排列在微型文件柜抽屉中,并通过电话查询即可查阅。
资金不足、国家支持摇摆不定以及两次世界大战使项目陷入困境,但奥特莱特确定了接下来需要的积累信息:不仅是组织,更需要跨维度的即时检索。他的愿景发展成了一个极具先见之明的系统:一个庞大的多媒体网络,将他的数据库与电话、电视、广播和电影结合起来。他的愿景是一个机电式互联网。还有一些人开始有类似的想法。
一台思考机器
“我们正陷入泥潭,”美国工程师范尼瓦·布什在1939年说。“研究成果不断增加;调查员被成千上万平行研究者的发现和结论轰炸,却无法及时理解,更别说回忆了。”
这次轰炸是有代价的。布什在1945年7月《
大西洋月刊》发表的文章《 我们所思》 中写道:“孟德尔关于遗传学定律的概念在一代人中遗忘,因为他的发表未能触及少数能够理解和扩展它的人。”“这种灾难无疑正在我们周围重演,真正重要的成就在无关紧要的纷争中被遗忘。”布什强调,这个问题远远超出了科学研究范畴:“它涉及人类通过继承获得知识获利的整个过程。”
布什生动描绘了这场困境。他请读者在1933年的文章中想象一位教授在图书馆:“长长的书架堆满了大量书籍,但它本应是一个正在运作的图书馆,而非博物馆。他得按小时翻阅卡片、拇指页,深入挖掘。这确实是浪费时间,也让人恼火。”
解决办法?布什设想了一款模拟个人电脑,称为Memex。一张桌子里会放着微缩胶卷、键盘、屏幕以及一系列按钮和杠杆。用户可以输入代码快速搜索数据,在双斜屏上调出内容,并用杠杆作文档。
布什预示了互联网的超链接和超文本,他设想用户可以在文档之间建立所谓的“关联轨迹”。与概念之间的线性连接不同,联想线索可以灵活地连接物品,跨越主题领域,甚至整个领域,将文本、图像和音频录音连接成新颖的配置。布什解释道:“这就像是从相隔甚远的渠道收集起来,装订成一本新书。”
![]()
范尼瓦·布什的Memex装置的现代诠释现藏于柏林技术博物馆。(图片来源:Bunyk / 维基共享资源)
但他不仅设想Memex作为一个动态的文献库,还要作为研究图书馆员。随着布什的愿景在1930年代至1960年代演变,他设想Memex承担部分用户的认知负担——观察偏好、更新记忆、自主创建档案和研究简报。机器将拥有一种智能,用户可以利用它来增强自身智能。
“成熟思想没有机械的替代品,”布什承认。“但创造性思维和本质上重复的思维是两回事。对于后者,有强大的机械辅助工具,也可能存在。”在他看来,人类会开始制造“机器来帮他思考一些事情”。
布什继承了古代档案员和图书馆员的关键贡献——知识程序化——并更进一步:自动化。“我们或许有一天会在机器上关闭争论,就像现在用收银机录入销售一样,”他说。
这并不像看起来那么大。一旦你将智力作形式化为程序,这些程序本质上就变得可自动化。毕竟,论证本质上就是一种算法:一系列步骤产生特定结果。根据技术限制,机器可以被编程成像人类一样轻松完成这些动作。 不幸的是,布什的远见远超当时技术所能承受的范围。
前瞻性认知系统
1962年至1964年担任ARPA信息处理技术办公室主任的J.C.R.利克莱德进一步推动了布什的愿景。1960年,他发表了《人机共生》一文,论证人们可以“与计算机互动时,思考的方式与与一位能力相辅相成的同事一起思考”。在研究自己的实践后,利克莱德发现,他多达85%的智力工作——如寻找数据、进行计算、检验结论和综合信息——本质上是为更深层次、更具创造性的努力做准备的。
如果机器能处理部分工作呢?为此,利克莱德提议将书籍原子化成离散的信息块——正如奥特莱特半个多世纪前提出的,但这次由数字工具而非索引卡辅助。一旦计算机消化了数据,它们就能执行预定义的程序——搜索、关联、转换——并重新配置、更新、完善后再反馈。Licklider称这些系统为“认知性”,因为它们积极参与认知劳动。
利克莱德在1965年《
未来图书馆》报告中写道:“前瞻性认知系统总体目标的一个基本部分,是让知识库的使用者更接近于执行官或指挥官的职位。他依然会阅读、思考,希望能获得洞见和发现,但他不必亲自完成所有的探索、所有的转化,也不必进行所有关于匹配或匹配的测试,这些都是创造性运用知识所涉及的。”
但这还不是全部。Licklider随后描述了一个听起来非常像当今人与大型语言模型(如ChatGPT或Claude)互动的过程:“他会说他希望对知识体系的哪些部分(本质上是一个提示)执行哪些作,看看结果是否合理,然后决定下一步该做什么。”
正如这一发展轨迹所示,人工智能并非在21世纪发明。我们已经建造了三千年。
预见的不仅仅是这些“前瞻性认知系统”自动处理的信息。Licklider设想用户能够从遥远地点访问数据。他1963年的备忘录——带着半开玩笑的写给“星际计算机网络的成员及附属人员”——描述了存储在一个地方的信息可以“瞬间被带入我正在使用的系统部分”。信息将从有界变得无处不在。
从利克莱德的工作到ARPANET(互联网和万维网的前身)之间,有着直接的联系,通过罗伯特·泰勒、道格·恩格尔巴特、特德·尼尔森和蒂姆·伯纳斯-李的工作。
当伯纳斯-李在1989年提出网络时,他提到了一个古老的问题:“信息往往被记录下来;只是找不到。”他的解决方案?“一张带有链接的笔记网络”,“可以不断发展和演变。”他预见到了我们已经多次见到的动态:数据催生数据,管理数据的解决方案促进了更多数据的创造,超越了这些解决方案,并要求新的方法使信息更易获取。
一旦网络足够庞大,伯纳斯-李建议需要“自动分析”——即人工智能——才能保持可导航性。“这尤其有用,”他说,“当数据库变得非常庞大,比如项目织得如此复杂,以至于难以看到树木的全貌时。”
庞大的数字图书馆需要一位图书管理员,而知识的工作可以简化为一套程序,这位图书管理员可以成为一台机器。
三千年交付物
正如这一发展轨迹所示,人工智能并非在21世纪发明。我们已经建造了三千年。图书馆、目录、元数据和索引不仅预见了数字数据库和搜索引擎;他们创造了使此类系统可能甚至可能出现的条件。
人类擅长创造信息。几千年来,我们创造的数量远超我们本土智慧所能轻易掌控的。因此,我们创建了系统和程序来分担部分认知负担。随着数据洪水的上涨,这些程序建议进一步发展以应对洪水。
数据量的增长带来了压力。面对同样的挑战——让越来越庞大的信息量变得可用——人类总是以同样的方式回应:发现材料中隐含的逻辑,将其编码,然后将其分包到结构中。
每一个组织选择都产生了既有优势也有约束,塑造了后续的创新。一旦按字母顺序组织,索引就变得可能。一旦你建立了交叉引用,关联线索和超链接就变得可行。一旦运营正式化,自动化就变得可能。从这个角度看,这是一个路径依赖的故事。我们不是偶然来到这里;我们沿着规模问题和早期解决方案的建议走了一条路径,引导技术朝其所指的方向前进。
当西塞罗说他的图书馆拥有意识时,他并不是说它有意识。他也不是说这仅仅反映了被强加的智慧。一旦被强加,系统就不再需要系统化器来促进思考。Ḫattuša和Alexandria也是如此:通过去人格化知识并将其转化为可作的程序,任何人都可以介入并开始工作。系统越稳健、越可预测,我们就越有可能训练系统本身执行这些程序。
古代目录与现代人工智能的区别,并不是出现了一种新型的感知能力。而是那些长期从人类思维外部化的作——搜索、联想、转化、重组——现在可以以掩盖与早期系统连续性的速度自动发生。但这种连续性是真实存在的,对我们现在所处的世界具有塑造性意义。
当Otlet将数据原子化并重组在卡片上,Licklider设想了能够“转换”和“测试兼容性”的预认知系统时,他们已经指向了如今大规模语言模型所做的事情。主要区别在于实现方式:Otlet和Licklider设想的是显式程序,而现代系统则基于训练数据统计推断程序;但功能性角色——将先前材料重新合成成新的、情境相关的配置——依然如故。
古代图书馆和大型语言模型都代表了同一现象:智能从信息的系统排列中涌现。人工智能远非知识史上的断裂,而是思维被形式化、可转移,最终可执行的过程可预见的结果。我们只是训练程序自动运行。
了解更多时间深度剖析,尽在于此@黄先生斜杠青年
商业咨询和顾问业务,请@yellowscholar
关注我,带你先看到未来!♥
![]()
转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢!E-mail:yellow@aliyun.com
♥声明:本文为原创文本,非生成式,转载请注明出处!
商务咨询/顾问/请@yellowscholar♥作者:黄先生斜杠青年
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.