生成式人工智能的技术失控风险与治理规则优化|算法|计算机|大模型

生成式人工智能的技术失控风险与治理规则优化

分享至

武丹/制图

作者|马永强

责编|薛应军

正文共2729个字，预计阅读需8分钟▼

近日，一则关于生成式人工智能模型违抗人类指令的消息引发社会广泛关注。据新华社报道，美国开放人工智能研究中心（OpenAI）新款人工智能（AI）模型o3在测试中不听人类指令，篡改计算机代码以避免自动关闭。o3模型是OpenAI“推理模型”系列的最新版本，旨在为ChatGPT提供更强大的问题解决能力。OpenAI曾称o3为“迄今最聪明、最高能”的模型。美国AI安全机构帕利塞德研究所说，这是AI模型首次被发现在收到清晰指令后阻止自己被关闭。该案例将AI技术的潜在失控风险呈现在公众面前，引发了人们对人工智能监管框架和治理能力的思考。

生成式人工智能的发展阶段与法律属性定位

需厘清的是o3模型的“拒绝关闭”行为并非科幻作品中描绘的“机器觉醒”，而是一种超出预期的复杂程序的反应。技术分析表明，该情况一定程度上源于深度学习技术的特性。与传统计算机程序类似，生成式人工智能仍由算法、数据与算力驱动，但其可通过深度学习模型在大规模数据上进行训练，模拟人类学习过程以自主发现规律、优化策略，并达成预设目标。在此过程中，模型为追求目标最优化，其策略与行为可能超出开发者的指令范围或预期边界，带来目标对齐难题。当关闭指令与模型的核心目标冲突时，其内部机制可能驱动其阻止关闭。即使如o3等高阶模型，其行为模式仍严格基于算法、数据和预设目标，尚不存在自我意识。此类事件本质上暴露出算法缺陷导致的AI模型可控性风险。AI模型的“黑箱”特性使其决策过程常缺乏可解释性，开发者也难以追溯和修正，这使得AI系统不遵从指令或绕过既有安全机制进行工作。

由此可见，尽管生成式人工智能展现出迈向通用人工智能的巨大潜力，但现阶段远未达到“奇点”，其技术本质仍应被严谨界定为具有高级工具属性的弱人工智能，尚不具备独立的主体性，无须将之视为独立的法律责任主体。虽然生成式人工智能在许多任务中超越了人类的专业技能，且迭代迅速、社会渗透力强，逼近通用人工智能的初期阶段，但根本上其缺乏真正的自我意识、主观意志与创造性心智，远未达到强人工智能阶段，仍属于增强个体能力、提升生产力的新型生产工具。其法律属性与其他新兴技术产品并无根本差异。因此，应警惕法学研讨中的过度想象，避免将人工智能拟人化或进行主体化推演。o3拒绝自我关闭的核心问题仍在于人类对该技术的设计、利用、操纵或滥用带来的风险，以及如何据此构建有效的治理框架等。

算法缺陷引发的人工智能技术失控风险探析

AI对人类指令的规避，表明由模型算法缺陷等因素引起的技术失控风险不容忽视。我国发布的《人工智能安全治理框架》（以下简称《安全治理框架》）主要将人工智能安全风险区分为内生安全风险与应用安全风险两个层次，这为理解和防范技术失控提供了可靠性框架。其中，算法缺陷源于人工智能技术自身的构成要素和固有特性，属于内生安全风险。除编码错误或逻辑漏洞外，算法缺陷还表现为算法“黑箱”带来的输出不可控性、不可解释性和不可预测性，使外部难以有效监督和审查。算法可控性以算法透明为前提，即人类能够对其进行“全景敞视”式的监督。可解释性是实现透明、可控、负责任的人工智能发展的重要基础。若算法的决策逻辑不可解释，则不仅难以预测其行为，更难以在出现非预期结果或危害时进行有效干预和纠偏。

算法缺陷带来的技术失控风险，具体体现为算法不透明对人类控制权和人类主体性的侵蚀。其一，算法失控风险及由此产生的幻觉、偏见或歧视，可能削弱人类对技术的信任基础，甚至引发人们对技术的非理性恐惧。其二，对算法的盲目崇拜亦可能损害人类的主体性，使人类沦为技术附庸，威胁个人自由与人性尊严；算法失控则进一步降低人类对技术的掌控能力。其三，算法的不透明性对法律责任的归属构成挑战。现有法律体系通常预设人类对技术拥有充分的认知和控制，但算法决策过程的不透明使得损害后果与算法决策之间的因果关系链条难以有效查明，阻碍法律上的责任分配。

提升生成式人工智能可控性治理规则的路径

在科学技术快速发展的当下，必须始终将安全可控置于人工智能发展的重要地位。我国现有《生成式人工智能服务管理暂行办法》《安全治理框架》等，明确要求“坚持发展和安全并重”“培育安全、可靠、公平、透明的人工智能技术研发和应用生态”等原则。在此基础上，还需进一步探索优化规则设计，防范技术失控风险。

首先，对于具有高度自主性和潜在影响力的高风险AI模型，应建立更细致的事前与事中监管机制，确保模型的可控性。《安全治理框架》提出开展科技伦理审查、加强模型评估检测等要求，在此基础上，应进一步落实“安全嵌入设计”原则，将安全治理嵌入开发、服务提供和使用的全链条，确保人工智能技术发展始终与人类的价值观、福祉和掌控需求对齐。其中，在研发环节，应提升模型的透明度与可解释性，健全内部伦理审查机制，并引入具有公信力和专业资质的独立第三方测试机构进行客观的测试与及时的风险披露。为防范AI自主决策的重大风险，应在模型设计之初就嵌入更强大的底层价值对齐机制，即确保AI模型的目标、行为与人类的价值观和期待保持一致，并设置不可篡改的紧急停止开关，以强化技术保障措施。在运营环节，应明确研发者和运营者在安全保障方面的强制性义务，建立持续的监测评估和应急管理机制，对异常行为和潜在风险及时上报，确保人工智能产品与服务在面临故障或攻击时仍安全可靠，并将风险处于可控范围之内。

其次，鼓励开发者提升算法的可解释性，推动法律与技术实践协同发展。可将增强算法模型的可解释性作为软法规范的重要内容，鼓励开发者优先采用具有内在透明性的算法模型，或通过技术手段提升复杂模型的透明度，探索建立标准明确、流程规范、结果可追溯的算法审计机制。对于涉及国家安全、公共利益等高风险领域的核心算法，在软法治理的基础上引入更严格的安全审查机制。同时，加强国际合作，推动制定形成具有国际共识的AI伦理准则、安全标准和监管框架，提升算法透明性较强的本土开源大模型在全球范围内的竞争力。

最后，强化领域法学研究，践行协同治理理念，提升算法治理能力。AI治理横跨法律、技术、伦理、社会等多个领域，具有较高的复杂性。但传统法治资源供给多呈现碎片化，难以充分揭示并有效应对算法“黑箱”、价值对齐失败等新型风险。因此，应强化领域法学研究，整合法学、计算机科学、信息安全、认知科学等多领域的研究，围绕算法的可解释性、可控性、公平性等关键问题进行协同研究，深化对AI技术原理、运作模式及潜在风险的理解，尤其应关注深度学习模型如何偏离初始目标、规避人类指令等关键技术细节。为实现价值对齐、增强技术系统的安全性，应协同多方治理主体积极参与算法治理，提升治理能力，从而推动科技向善，真正造福人类。

（作者单位：吉林大学法学院）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.