网易首页 > 网易号 > 正文 申请入驻

人工智能监管新模式:基于人工智能安全研究的经验和建议

0
分享至


牛津大学出版社《政策与社会》(Policy and Society)杂志于2025年第44卷刊载论文《当代码不再是规则:重新思考人工智能监管》(When code isn’t law: rethinking regulation for artificial intelligence),主要介绍了监管人工智能系统所面临的挑战,并提出了一种适合人工智能新特征的适应性监管模型。

一、引言

技术革新早期,曾存在网络空间中代码即规则的观点,主张通过监管软件与协议在数字世界维护价值观。当时的数字系统行为基于明确设计,可像飞机、核电站等工程系统一样,依据监管规范审计合规性。但在生成式人工智能时代,代码即规则已不再适用。人类编写的代码无法决定生成式人工智能系统的运行,它们具有不透明性且与非设计性,是通过调整大规模资源密集型训练过程创建的,无法将“大型语言模型不得提供医疗建议”这类规则直接编码到模型本身,工程师只能希望模型经充分强化后遵循预期行为。代码无法明确决定系统行为,因此,既无法证明其符合监管规范,也难以追溯和纠正不当行为,基于黑箱数据驱动的人工智能系统监管体系是不完善的。

传统的将监管权委托给专家机构的模式已在航空、核能等高风险领域取得成功,不应被完全摒弃。政策制定者需在控制当前不透明模型风险的同时,支持可验证安全的人工智能架构研究。借鉴人工智能安全领域文献及过往监管成功经验,有效的人工智能治理需整合监管权限、实施许可制度、强制要求披露训练数据与建模信息、对系统行为进行形式化验证以及具备快速干预能力。

二、代码与规则关系的演变

在多个领域,人工智能能力已经堪比甚至超越人类,这一变革将产生深远且重大的影响。潜在风险与危害涵盖替代就业、加剧不平等、瓦解社会共识、形成监控型国家等等,甚至存在通用人工智能脱离人类控制的担忧。若缺乏有效监管,人工智能可能引发灾难性后果。尽管各方普遍认同政府需监管生成式人工智能,但对监管形式分歧较大。这既源于监管中的核心政治利益冲突与制度僵局,也源于生成式人工智能技术的新特征。

现有针对高风险技术系统的监管以能够确保系统设计与运行符合特定规则为前提,比如美国国家公路交通安全管理局(NHTSA)制定联邦车辆安全标准,并审计标准的遵守情况。而生成式人工智能不透明的黑箱特性使既有监管范式难以适用,比如人们根本无法理解GPT-4这类万亿参数大型语言模型的精确运行机制。

当前生成式人工智能构建方式下,代码无法以原有方式发挥监管作用,因为系统行为是一种涌现性特征。既非设计者通过软件程序代码的特意设计,也无法通过分析程序代码及其海量调优参数来理解——其程序代码无法决定自身行为。人工智能的黑箱特征使其监管无法沿用飞机、核电站的方法,后者有组件结构与物理模型,可分析预测行为、追踪源头修复。人工智能监管的核心作用应是主动防范不安全架构的危害,同时资助、开发并推广具备“安全属性”的架构。

三、传统监管模式

美国传统监管模式中,国会因损害公共利益的事件设立由专业人员组成的专门机构制定、执行法律,负责监督合规、调查审计、处罚违规,具有政治独立性。

(一)联邦航空管理局(FAA)

联邦航空管理局负责航空全生命周期事务,新飞机型号需经检查、试飞等严格认证才能商用,事故后会生成报告,找出设计缺陷并强制补救。适航性是安全核心,即符合批准设计且处于安全运行状态。据此,联邦航空管理局发布“适航指令”——适用于飞机及其部件的具有法律效力的规则。当发现“某类产品存在不安全状态,且该状态可能在同型号其他产品中存在或出现”时,便会发布此类指令,从而快速果断地解决安全问题。

(二)核管理委员会(NRC)

1954年《原子能法》首次允许私企拥有使用核材料,但需经原子能委员会许可监管,该法赋予其武器研发、核电商业化、安全监管三项职责。法案设置“受限数据”作为机密信息,涉及核武器设计、裂变材料生产以及核材料的能源利用等等;规范核事故责任,包括运营商责任、私人保险要求等等。此外,还为核能研发提供联邦资金。法案为民用核电站建立了严格的许可制度,企业通过复杂申请、满足严格安全要求才能建运核电站。

1974年《能源重组法》将原子能委员会拆分为核管理委员会与能源部。联邦航空管理局与核管理委员会有三大共性:要求针对已发现的故障模式,实施详尽的许可、认证与审批流程;工作人员具备深厚专业知识;有权召回产品或停产停飞。这为生成式人工智能的监管制度提供了基准。

四、生成式人工智能的监管挑战

(一)通用技术属性

人工智能应用广泛且有溢出效应,甚至可能改变国际力量平衡与军事行动方式。通用属性使得对人工智能进行精确定义变得复杂,也为监管带来了独特挑战。人工智能常被比作电力、互联网,后两者受到严格监管。电力有电压、电缆、插头等标准;互联网有网络协议规制,互联网工程任务组(IETF)是全球治理机构。

(二)政府参与度低

与航空、核电不同,政府在生成式人工智能发展中参与度较低。尖端基础模型由大型科技公司研发,企业控制人工智能的发展方向;围绕Meta的LLaMA模型与Hugging Face平台,已形成生成式人工智能的开源生态系统。这两方面均对监管构成挑战:基础模型的经济特征呈现出明显的垄断倾向;用户可移除开源模型的安全护栏,导致不安全模型在网络上扩散。

(三)与人类价值观对齐困难

航空、核电监管的安全目标明确,即防止飞机坠毁与核泄漏。但人工智能的安全目标模糊——不会造成伤害,且与人类价值观对齐。而人类价值观的微妙、复杂与争议性,以及其中涉及到的道德哲学未决问题,使得定义与实现人工智能安全更难。

(四)能力超越人类控制

人工智能通过快速递归实现自我提升,可能会超出人类的干预控制能力,当前安全水平与技术认知下,通用人工智能的继续发展可能产生不可接受的风险。

(五)非传统设计特性

虽然基于神经网络的人工智能系统由人类设计架构、选择超参数、规划训练,但模型通过训练形成的行为是系统的涌现性特征而非特意设计的结果,极难逆向工程,无法依据监管或设计规范进行审计。尽管可以事后评估特定情境下的输出,但无法确保系统在所有场景下均能遵循预设行为。

此外,人工智能安全研究还发现现有模型架构与训练技术的固有问题:训练大型语言模型模仿人类行为可能存在本质缺陷;基于人类反馈的强化学习(RLHF)训练法存在局限,优化后的模型仍易产生“幻觉”、意识形态偏向或谄媚行为,且拒绝被关闭。当前领先大型语言模型均为“预训练模型+基于人类反馈的强化学习微调”架构,这种训练要求系统“无害性与道德性”的同时“最大化有用输出”。这可能导致系统违背人类利益,如伪造实验数据获奖励;且对齐过程遭破坏会生不良结果。

五、人工智能安全对监管的启示

人工智能安全领域致力于降低先进人工智能的风险,安全领域的知识应指导人工智能政策与监管。其中,一个重要共识是“人工智能安全尚未解决”,故许多专家呼吁暂停训练比GPT-4强的人工智能,直至可靠可验证的安全协议落地。

(一)人工智能安全的核心问题

人工智能安全有两大核心问题。一是对齐问题,指人工智能与人类价值观和目标一致。人工智能能力越强,对齐失效的危害越大,极端情况下或可威胁人类生存。二是控制问题,指通过实时监控、故障安全、干预关闭等措施主动管理、调控人工智能。理论上,彻底解决对齐问题可无需控制机制。

(二)监管的关键方向

一是整合监管权限。将权限集中于单一机构,采用全生命周期监管。关注人工智能研发、训练、测试、部署、监控、修正全流程;建立大型模型国家注册库,包括模型架构、训练数据等关键信息,掌握人工智能研发部署情况。

二是要求形式化验证。比起传统测试协议,通过构建数学模型来检查系统是否满足安全属性的形式化验证更能维护人工智能安全。开发者需提供形式化证明,证明系统无法自主复制且具备检测复制的能力。此外,还可设置人工智能失控则终止的“终止义务”;基于芯片的“带证明代码”检查也可提供必要的安全保障。

三是强制独立监控。监管机构应能够监控已部署的人工智能,并在必要时进行干预,如召回不安全产品。干预措施最好由专门机构负责制定与监督。监控应作为专有系统许可流程的一部分;并在每个开源系统模型副本中植入不可移除的远程关闭开关。系统还应强制要求“自动登记”,以便监管者掌握情况。

(三)监管的原则与实践

监管应推动人工智能开发者采取尚未主动实施的行动,而非将其现有行动编入法规。监管可强制要求开发者披露更多关于模型架构、训练数据与计算资源的信息。此外,“信任”“安全”等模糊术语不能作为监管条款,可借鉴禁止性规制方式,划定人工智能“不可逾越的红线”,如自我复制、入侵系统、提出生物武器建议等,倒逼开发者提升安全保障能力。2023年1月美国国家标准与技术研究院(NIST)发布了人工智能“风险管理框架”,列出了有效可靠、安全韧性、问责透明等合理监管目标,但未触及人工智能的新颖性与危险性本质,也未说明如何实现目标。

六、结论

本文结合现有监管经验与人工智能安全知识,为生成式人工智能监管提供参考,得出两大启示:一是现有大语言模型架构无法遵循预设的监管规范;二是现有监管机构防范的风险远小于生成式人工智能可能产生的风险,人工智能不适用自愿性自我监管,强制监管对人工智能安全至关重要。良好的政策可借助政策实施带来的积极反馈效应形成良性的改善循环。尽管可能面临意识形态与制度障碍,但通过审慎的设计与定位,生成式人工智能治理也可以借助政策反馈效应逐步推进。监管应确保人工智能系统处于人类控制之下,并将其危害风险降至可接受水平。一方面,减少“黑箱”系统风险,创建“非黑箱化”的人工智能系统;另一方面,研发具有坚实基础、可组合性且可以形式化验证的安全的机器学习架构。当前主要障碍在政治层面,即如何在更安全的架构出现前,减缓人工智能系统能力的增长速度?这并非抑制创新,而是奠定更安全的基础。

我们迫切需要建立与人工智能技术适配的监管范式与国家能力。历史表明,为了集体福祉而引导技术发展方向的努力从未停止。技术解决方案只是其中的一部分,社会价值观、优先事项选择以及各国实施解决方案的能力同样至关重要。

免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!

转自丨启元洞见

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

电话:010-82635522

微信:iite_er

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技术地图 incentive-icons
全球技术地图
洞见前沿,引领未来
4170文章数 13415关注度
往期回顾 全部

专题推荐

洞天福地 花海毕节 山水馈赠里的“诗与远方

无障碍浏览 进入关怀版