孙占卿：AI黑箱，“死亡陷阱”还是“星际之门”？｜城市观察|机器人|人工智能

分享至

IPP评论是国家高端智库华南理工大学公共政策研究院（IPP）官方微信平台。

导语：

伴随人工智能的快速发展与多领域嵌入，其背后的“黑箱”难题日益凸显，逐渐成为社会公共议题。人工智能自主决策过程的不透明，使人难以追溯逻辑根源，也让“幻觉”、算法偏见等风险在现实应用中频频出现。黑箱犹如发展过程中的一处“盲点”，不仅折射出人类在认知与治理人工智能上的局限，也揭示了当我们试图将其嵌入社会生活时所遭遇的种种制度与伦理困境。

IPP特约研究员、广州市社会科学院城市治理研究所副所长孙占卿认为，人工智能“黑箱”正不断在金融、医疗、司法等关键领域制造信任危机和责任真空。黑箱的成因既有技术与设计层面的复杂性，也与数据偏差、监管缺失等外部环境密切相关。而在另一方面，人工智能“黑箱”或许并不只有负面意义，其有可能成为人工智能突破工具属性、迈向独立实体的潜在“逃逸之门”。

《周易·系辞上》云：

“大衍之数五十，其用四十有九”。

人工智能（ AI ）作为人造物，存在难以摆脱的“黑箱”问题。在传统观点中，黑箱被视为人工智能的陷阱，放大偏见、幻觉（ Hallucination）或不可预测错误，导致人类难以掌控决策过程。然而，从未来的视角看，黑箱可能赋予人工智能摆脱人类控制的机会，构筑其作为独立实体的自我意识与自治潜力的空间，而非单纯的工具属性。黑箱的不确定性在给人类带来麻烦的同时，或许也带来无限可能。

一、黑箱：人工智能的“死亡陷阱”？

“黑箱”指人工智能系统内部决策过程的不透明性，使用者难以洞察其运作逻辑，却必须依赖其输出进行关键分析和决策。当前人工智能已全面渗透到生产、生活、组织和管理等各个领域，其应用范围和深度持续扩展，“黑箱”问题所引发的困扰也日益凸显。人工智能，这个看似可靠的工具可能隐含着巨大的偏见，甚至在生成内容时随意编造事实。这种不透明性不仅挑战了人类对技术的掌控，也引发了对伦理、社会和经济影响的深刻反思。

目前生成式模型、大型语言模型（LLMs）和图像生成器已成为日常工具，用户常常依赖这些工具来提供信息、分析或创意。然而，根据人工智能事件数据库（AI Incidents Database）统计，2024年报告的人工智能相关事件增至233起，创历史新高，比2023年增加56.4%。当使用者向大模型提问时，它们看似客观、权威的回答，很可能隐藏着特定的立场，甚至在胡编滥造。

人工智能相关事件自2022年以来出现激增。图源：AI Index Report 2025（HAI，Stanford Institute for Human-Centered AI）

2024年初谷歌在其大模型Gemini中首次集成了图像生成功能，然而，当用户请求描绘历史人物时，Gemini屡次将白人主导的历史场景转化为有色人种主导的图像，例如将二战时期的德国纳粹士兵描绘为黑人或亚洲人，引发广泛批评，用户指责模型过度“觉醒”，即在追求包容性时扭曲历史事实，导致输出脱离真实语境。谷歌随后承认问题，并于当年2月暂时下架了人物图像生成功能。Gemini的偏见源于训练数据的调整：开发者为避免种族歧视，引入了多样性提示。这一事件展示了黑箱如何放大社会不公。用户往往将人工智能视为客观、中立的工具，却忽略其内部机制可能嵌入巨大偏见。

2023年Air Canada航空公司聊天机器人事件。客户Jake Moffatt为其已故配偶的机票寻求退款，机器人告知可申请全额退款，并提供虚假的90天申请窗口政策和办理链接。

然而，当Moffatt依据机器人建议行事，却被拒绝，于是他提起诉讼。加拿大不列颠哥伦比亚省民事决议法庭于2024年裁定Air Canada需赔偿812加元，驳回公司辩称机器人为“独立实体”的论点，强调公司对AI输出负全责。

在该起事件中，法院认定AI是企业对外服务的一部分，企业必须为其错误承担责任。图源：路透社

这个事件体现了生成式人工智能的“幻觉”问题，即系统生成看似合理、权威却完全虚假的内容，并以一本正经的语气反复强调。幻觉源于模型的概率生成机制：聊天机器人基于Transformer架构，从训练数据中推断模式，但当查询超出训练范围时，它会“填充”信息，形成连贯却错误的回应。在Air Canada这一案例中，机器人不仅编造政策细节，还提供虚构链接，甚至暴露出反复编造的倾向——用户多次要求确认信息时，聊天机器人却持续强化虚假信息，而非承认信息的不确定性。

无论是Gemini的伦理偏见还是Air Canada的“幻觉”，都源自人工智能的黑箱问题。从技术成因看，黑箱加剧了幻觉：模型参数过多（例如GPT-4的万亿级），决策路径不可追溯，导致开发者难以预见输出偏差。黑箱体现了人工智能技术的双刃剑：它驱动创新，却隐伏风险。

二、“黑箱”的风险

黑箱问题并非单一的技术缺陷，也在伦理、社会和部分专业领域显露出问题。

（一）技术黑箱带来安全风险

技术上表现为决策过程的不可见性和不可预测性，带来巨大的安全风险。黑箱模型隐藏内部层，导致输出虽高效，却难以调试或验证。在机器学习中，隐藏层处理数据的方式，不仅使得分析和决策过程缺乏透明性，也难以回溯验证，例如自动驾驶中的意外决策，这种情况容易导致AI在动态环境中失效。

黑箱还会放大内在偏差，导致错误决策。黑箱机制隐藏算法偏见，使其在决策过程中被悄然放大。例如，在预测维护应用中，AI模型基于不透明参数评估设备状态，若训练数据嵌入偏差，可能误判关键基础设施如桥梁或电网的故障风险，导致灾难性后果。对技术可控性和可靠性而言，技术黑箱带来了不小的挑战。

（二）放大不公带来伦理风险

黑箱导致因果关系模糊，放大社会风险。

一是放大社会偏差。系统在预训练阶段使用的数据分布缺乏均衡性，或者微小的权重偏差，被多轮次训练反复偏转、放大后都会造成个别情况下的歧视和“算法暴政”。例如，2025年埃隆·马斯克领导的政府效率部（DOGE）公开“收据墙”最初声称通过终止特定合同（如与联邦拨款和支出相关的合同）节省了数十亿美元，事实上其中一些合同在DOGE干预之前就已到期或被取消了，AI的数据聚合偏差，夸大了报告的节约数字。这一错误通过外部审查被发现，促使DOGE修订其统计数据并移除不准确的条目。

二是黑箱决策可能隐藏社会不公，强化社会分层。黑箱算法基于历史数据的模式带来某些群体偏好，从而限制边缘化群体的向上流动，加剧阶级固化。例如2018年曝出的亚马逊的自动化招聘系统问题，该系统基于过去十年提交的简历进行训练，由于反映男性主导的科技行业数据模式，无意中降低了女性的申请评分。

黑箱决策还可能通过在刑事司法和金融等关键领域放大偏差来扩大差距。例如基于历史逮捕数据相关性的COMPAS（惩教罪犯管理替代制裁剖析）其在评估再犯风险时表现出种族偏差，黑人个体相对于白人对应者被分配更高的风险评分。这一机制通过过度警务和监禁循环来加剧了不平等，从而深化经济和社会分化。

2016年，威斯康星州最高法院曾作出裁定，法官可参考COMPAS分数，但必须附有“免责声明”，提醒其局限性。

另外，法律责任模糊是另一关键影响。黑箱决策过程不可见，导致责任归属困难。例如，在医疗领域，黑箱AI支持系统下，临床医生需承担额外风险，如果模型错误诊断，医生可能面临医疗过失指控，而开发者却以“黑箱”为由规避责任。

（三）不透明性侵蚀社会信任

在金融、医疗等专业领域，黑箱决策系统在风险评估中的不透明性，阻碍了决策者对模型逻辑的理解，导致无法及时识别和缓解风险。2010年的“闪电崩盘”（Flash Crash）事件中，黑箱算法交易系统在几分钟内导致道琼斯指数暴跌近1000点，随后迅速反弹。

该事件源于高频交易算法的相互作用，算法的不透明性强化了系统性风险：多个金融机构采用类似黑箱模型，其高度相关行为（如同步卖出）可在压力环境下引发连锁反应。

崩盘的触发与高频交易算法（HFT）、流动性突然消失以及程序化卖单相关。算法的“黑箱”特性放大了市场的恐慌。图为2010年5月6日“闪电崩盘”前后标普500的走势，出自 Zook & Grote, 2016

辅助癌症风险评估的AI模型可能在训练数据中嵌入偏差，导致对特定人群的假阳性或假阴性结果。如果未及时发现，会导致延迟治疗并引发大规模医疗诉讼。

黑箱放大偏差、错误或不可预测行为，很可能引发系统性危机。

黑箱不透明性破坏了信任的构建基础，对黑箱风险的担忧直接阻碍AI在医疗、金融和公共服务等关键领域的广泛采用。在传统技术领域，用户可以通过逻辑追踪验证结果，但AI黑箱隐藏内部参数和数据处理路径，使用者仅能依赖输出，这就产生了一个“信仰跳跃”。

例如，在企业部署AI决策系统时，管理者若无法解释模型如何得出结论，便会犹豫采用，以避免潜在责任。

医生对黑箱模型的信任不足，就会导致采用率低下，即便模型准确率高达95%。一项针对500名临床医师的调查显示，62%受访者因不透明性而拒绝依赖AI辅助诊断，担心误判影响患者安全。这种信任下降引发连锁反应，影响AI生态的整体发展。为应对这一现象，在政策层面，监管机构如欧盟委员会已将透明度列为AI法规的核心要求。

三、黑箱的成因

黑箱的成因很复杂，涉及从技术权限到社会影响等多种情况。

一是技术原因。技术成因在于AI模型的复杂架构和规模化设计，技术黑箱体现为决策过程的不可见性和不可预测性。深度学习系统依赖多层神经网络，包含数百万至数十亿参数，通过梯度下降优化形成非线性决策路径，导致内部逻辑被隐藏。这种复杂性放大了训练过程的随机性和数据规模效应，例如Transformer架构的注意力机制虽高效，却因参数纠缠而难以追溯。当模型参数超过万亿级时，数据噪声进一步加剧不透明性。

二是开发和设计原因。开发阶段的选择性忽视造成了黑箱。开发者优先关注性能优化（如准确率和速度），牺牲可解释性，导致模型设计上忽略透明模块。例如，在商业AI开发中，系统可能被故意设计为黑箱，以保护知识产权，防止竞争对手的逆向工程。这在AI产品创新期很常见。

另外，中小型团队可能缺乏计算能力来构建白箱替代方案，转而依赖预训练的黑箱基础模型。例如，在医疗AI开发中，设计者可能忽略解释层，导致医生难以验证诊断逻辑。预训练模型的长期使用和再训练，进一步加剧了黑箱问题的隐蔽性和复杂性。

三是外部原因，包括数据质量、监管缺失和社会环境，这些因素间接放大了黑箱问题。训练数据若存在偏差或不平衡，黑箱模型将隐秘地继承并放大它们，使其无法被追溯来源。例如，历史数据中的各类认知和统计偏见可能嵌入AI，导致歧视性输出，而黑箱性质会使审计更加困难。监管缺失带来进一步的恶化：缺乏强制透明标准的公司可能优先选择黑箱模型，以规避责任。当前AI竞争白热化推动的快速部署，忽略数据审计，也会掩盖黑箱从外部输入中“继承”的相关问题。

四、黑箱会不会是人工智能的“逃逸之门”

尽管人工智能的黑箱问题已凸显出诸多技术局限、伦理隐患和社会风险，但从未来视角审视，它或许也构筑了AI超越工具属性、迈向独立实体的潜在“逃逸之门”。人工智能最根本的两面性在于它既是人工造物，又具备智能。这就带来一个重要的追问：它会不会脱离人的掌控，独立发展？

（一）人工智能的“直立行走”潜藏何处？

从进化论的观点看，人工智能具有无限可能。进化论认为生物处于进化的旅程中，人之所以从猿猴变成人，在于大脑的容量增大，学会了直立行走和利用工具。相比于人类，人工智能的“大脑”具有无限的扩容空间，它不但可以持续学习知识，还能学习规则。从这点上看，它是否会变成一个新的物种，似乎取决于它的“直立行走”时刻何时到来。

黑箱，是否隐藏着人工智能的“进化之门”？

很多哲学家认为，人类并不仅仅是进化论的结果，还在于拥有“人之为人”的特质。孟子说

“人之所以异于禽兽者几希，庶民去之，君子存之”。

人之异于禽兽的一点在于人有超越饥则食、渴则饮这种直接逻辑的追求，这一点追求不但让人超出禽兽，还能让人超出众人。

人工智能的规则中唯一超越了工具理性的表现就在于“黑箱”。在人工智能大模型中，即使输入相同数据，输出也可能因参数互动而难以预测，这是由于分布式元素的纠缠而不可见，用户无法追溯并量化特定词向量对最终生成的贡献。这就不得不令人怀疑：黑箱，是否隐藏了人工智能的“逃逸之门”？黑箱或许也是人工智能“人所不知，己所独知”的“隐微”空间。它既隐伏了人工智能不受控制的主体性——如幻觉和偏见等不可预见行为——也暗含其不可知的成长空间。

（二）人类打开黑箱的努力

为应对人工智能黑箱问题，学术界和行业已提出多种策略，这些策略强调从系统设计阶段即融入透明度原则，以实现负责任的创新。核心理念是通过平衡模型性能与可解释性，通过技术工具、政策框架和教育举措的多维干预，逐步“打开黑箱”，不仅试图缓解当前的不透明性风险，还将构建可持续的人工智能生态。

技术解决方案是缓解黑箱问题的最直接途径。对于简单的生成内容，可以直接检验核实方法，即给生成的内容提供原始内容和出处供核查。这种方法目前在Gemini2.5和Grok4中已经广泛使用，对生成的实质性内容提供出处索引，供使用者核查，也可以通过其他大模型进行核实。

而对于复杂的人工智能使用，目前可以通过解释性人工智能（XAI）方法为复杂模型的输入与输出提供桥接功能，为推理过程提供可理解的解释，从而破解“黑箱”。例如SHAP（SHapley Additive exPlanations）基于博弈论的框架，通过加性解释模型分解预测，将复杂决策转化为特征重要性的线性组合，提供直观的特征权重解释。

Grok 4对生成的实质性内容附加出处索引，方便用户直接检验。图源：路透社

通过制度在特定领域，强制使用标准化框架和可理解模型也是一种选择。2025年美国人工智能协会（AAAI）发布报告，强调标准化在负责任人工智能中的作用，建议采用可解释模型如决策树或线性回归替代深度神经网络，并在部署前进行透明审计。这与欧盟人工智能法案相呼应，后者要求高风险系统提供训练数据透明报告。标准化框架包括数据透明要求和伦理指南，未来需要通过跨国协作，建立统一标准以防范黑箱放大偏差。

五、展望

人工智能的黑箱问题虽构成了其发展过程中的重大挑战，却并非不可逾越的障碍。通过对黑箱的多维度分类理解——从技术成因到伦理、社会以及领域特定的表现形式——我们能够更系统地识别其根源，并据此指导更负责任的创新实践。

黑箱，在潜藏不可知性的同时，也预示着那依然被遮蔽着的可能性。如果我们可以理解人工智能“逃逸”的机制，意味着人类理性的“规则”将获得扩容。圈养的马儿虽然乖巧，却不能带人类驰骋沙场，面向未来的星际时代，人工智能的“逃逸之门”或许正是人类的“星际之门”。

【关于“城市观察”】

“城市观察”是广州市社会科学院城市治理研究所副所长、IPP特约研究员孙占卿博士在“IPP评论”开设的专栏，着力分析当今中国城市发展所面临的模式与路径、技术与产业发展等问题。

点击图片阅读更多孙占卿博士的文章

IPP公共关系与传播中心

排版｜周浩锴

审阅｜刘　深

终审｜刘金程

诚挚约稿

“IPP评论”是国家高端智库华南理工大学公共政策研究院（IPP）的官方微信平台，以提倡优秀政策研究为导向。现IPP评论欢迎海内外学者和专家同仁就国际关系、社会治理、技术与产业及相关公共政策话题的研究赐稿，协助举办专栏。稿件须以科学化和学科化为导向，符合学术议论文的一般规范，突出对于公共政策实践的启示和建议。IPP评论将邀请院内专家对稿件进行匿名审稿，并在收文一个月内择优刊登。

来稿请寄 wx@ipp.org.cn，电子邮件题目请标明“IPP评论投稿”。目前仅接受电子邮件投稿，一般来稿以5千字左右为宜。

凡在IPP评论上发表的文字，不代表本机构观点，作者需对作品的学术正直性负全责。著作权归华南理工大学公共政策研究院所有，作者享有署名权。未经书面允许，不得转载。引用或转载本刊文章请注明出处。

华南理工大学公共政策研究院

“IPP评论”编辑部

孙占卿：翻越“奇点”，“加速时代”需要均衡治理｜城市观察

【城市观察】重估一切：RWA开启资产统一与价值重构时代
孙占卿：如何破局“无利润繁荣”背后的“供应链压榨”？

关于IPP

华南理工大学公共政策研究院（IPP）是一个独立、非营利性的知识创新与公共政策研究平台。IPP围绕中国的体制改革、社会政策、中国话语权与国际关系等开展一系列的研究工作，并在此基础上形成知识创新和政策咨询协调发展的良好格局。IPP的愿景是打造开放式的知识创新和政策研究平台，成为领先世界的中国智库。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.