
近日,中国电子信息产业发展研究院(赛迪研究院)人工智能研究中心在大模型安全领域取得新进展,针对模型“幻觉”这一核心痛点探索出破解新思路 —— 提出融合“用户反馈数据+领域专家审批+模型数据微调”的闭环式大模型安全人机对齐方法,成功取得计算机软件著作权登记证书,旨在为我国人工智能产业安全可控、合规有序发展提供兼具创新性与实用性的新解决方案。
当前,国际学术界关注大模型对齐技术研究。Meta团队依托1000条精心设计的高质量样本,实现了超越传统大样本训练的对齐效果,凸显了高质量数据在模型对齐中的决定性价值。Skywork AI 与2050 Research团队联合发布专项研究,提出人机协同的大规模数据整理方案——作为RLHF的 “核心裁判”,奖励模型通过学习人类偏好为LLM 输出打分,直接指导后续强化学习优化。美国MIT与IBM Research团队研究揭示,单个用户仅通过提示词与反馈(点赞/点踩),即可向模型注入未授权知识并影响所有用户的使用结果。
![]()
▲大模型安全人机对齐核心流程
赛迪研究院人工智能研究中心提出的大模型安全人机对齐方法,整体流程分为四个核心阶段(如图1所示):(1)模型在线部署与实时交互,搭建用户、专家与模型的双向沟通载体,为反馈收集奠定基础;(2)多源反馈数据精准收集,同步整合用户真实使用反馈与领域专家专业意见,构建全面的反馈数据池;(3)高质量对齐数据构建与监督微调,将多源反馈转化为结构化训练数据,定向优化模型输出逻辑;(4)模型性能全方位评估与持续迭代,基于评估结果反哺反馈收集与微调环节,形成 “部署 - 收集 - 微调 - 评估” 的完整闭环。
赛迪研究院人工智能研究中心的方法构建了三大创新路径,形成差异化技术优势:一是全用户参与的双向批改机制,用户通过 “点赞 / 点踩+文字评语” 双维度对模型回答进行 “批改”,精准标记回答的准确性、安全性问题,有效弥补纯机器评估的盲区与局限性;二是跨行业专家权威排名体系,建立涵盖医疗、法律、工业、金融、能源等关键领域的专家库,按 “批改量 + 意见采纳率” 实施动态排名,确保反馈意见的专业性与权威性;三是闭环式定向微调优化,将专家优质批改意见结构化处理,形成专属高质量训练数据集,借鉴国际先进的小学习率微调经验,定向优化模型输出逻辑,显著降低模型事实错误率,同步提升不安全、不合规内容的拒答率。
▲大模型安全人机对齐计算机软著证书
未来,赛迪研究院人工智能研究中心将持续发挥国家级智库平台优势与行业资源整合能力,紧密围绕《深入实施“人工智能+”的指导意见》《生成式人工智能服务管理暂行办法》等国家政策要求,聚焦大模型安全治理的核心需求,切实以技术创新响应国家战略部署,以实践成果护航人工智能产业高质量发展。
来源 | 网络安全和数据安全研究测评事业部 产品检测室
编辑 | 办公室

![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.