企业如何控制AI大模型的应用风险|神经网络

分享至

刘劲段磊鄢然/文

最近几年，AI大模型的发展具有革命性，带来了在众多方面达到甚至超过人类智能水平的能力。其中，诸如ChatGPT或DeepSeek等大模型更是迅速积累了众多个人用户。

但最近美国麻省理工的一项研究发现，在企业管理和运营层面，真正能成功利用AI的企业少之又少，超过95%的企业在AI的试点运用中失败了。在与中国企业的沟通中，我们发现情况也非常类似。

为什么企业运用AI大模型这么难？因为企业一方面要利用大模型带来的能力和效率，另一方面要控制它的应用成本以及给企业带来的风险。本文忽略成本问题，而专注于大模型的风险，因为这是主要矛盾。

AI风险的微观面

AI的风险包含宏观风险和微观风险。前者涉及技术安全、社会伦理到人类未来生存等诸多维度，比如算法偏见带来的社会不平等加剧，AGI将来取代人类工作造成的大范围失业问题，甚至科幻电影热衷描绘的超级智能AI“觉醒”后失控，视人类为威胁，引发末日浩劫。这种宏观风险需要社会和国家通过制度和监管来解决，我们暂不讨论。

本文主要聚焦微观风险，即企业在部署和应用大模型过程中面临的具体、迫切的问题：是否会带来业务效果不佳、客户体验恶化、品牌声誉受损、数据安全威胁、知识产权侵蚀、法律合规出问题等风险。这种微观风险可以概括为四个方面。

首先是大模型的幻觉问题，即大模型生成看似逻辑通顺，实则错误、虚构或不符合指令要求的内容。在训练数据覆盖不足、输入信息模糊或需要最新知识等情境下，大模型尤其容易产生幻觉。但这些情境只是诱因，更根本的原因在于其核心工作机制的固有特性。

大模型本质上是统计模型而非知识库，其核心机制是基于统计的模式匹配——一个复杂的“自动补全”过程。例如，当用户输入“下班回家路上，我去超市买了一瓶”时，模型会基于统计规律输出“水”或“饮料”，因为这在数据中远比“书”更常见。这种设计决定了它只追求统计意义上的“合理”，而无法自主追求或验证内容的真实性。

正因为幻觉是大模型核心机制的直接产物，所以在现阶段的技术范式下，无论如何尝试改变模型的结构、优化输入数据或调整提示词，幻觉问题都无法被根除。因此，幻觉对于企业运营中精度要求高的场景是个巨大挑战，也是大模型在企业级应用中最关键的风险之一。

其次是输出安全与价值对齐的挑战。大模型的海量预训练数据主要来自互联网，模型在学习海量知识的同时，也吸收了数据中可能存在的偏见、歧视性言论或有害信息。在与客户或公众的交互中，模型可能会生成不当、冒犯性或与企业价值观相悖的内容。这种“言论失当”会直接损害企业的品牌声誉和公众信任。

另一方面，大模型可能被恶意用户诱导或利用，生成虚假信息、仇恨言论、违法内容或其他有害文本，使企业平台成为不良内容的滋生土壤，并可能引发监管问题。

三是隐私与数据合规的风险。当员工使用公开的第三方大模型服务时，输入的任何信息，例如会议纪要、财务数据、技术代码或公司战略，都可能在用户协议的默认条款下被服务商收集、存储并用于其模型的后续训练。这相当于将企业的内部敏感数据拱手相让。

更进一步，大模型在训练过程中有可能会“记住”训练数据中的具体信息片段。在后续的交互中，模型可能在无意或被恶意提示词引导的情况下，复现其“记住”的敏感信息（如个人身份信息、医疗记录等），造成企业或客户的隐私泄露。

最后是可解释性的挑战。大模型的决策过程很大程度上是一个“黑箱”，它无法提供一个人类可以理解的清晰归因和解释。其根源在于大模型的极端复杂性，输入的信息首先被编码为计算机能够处理的高维向量，这些向量在万亿级参数构成的深层神经网络中，经过大量的矩阵运算和非线性变换得到输出，很难从中倒推出一条清晰、可供人类理解的决策路径来回答“为什么是这个结果”。

这在高风险、高合规的领域构成了严峻挑战。在金融风控、医疗诊断等需要严格审计和问责的场景中，一个无法解释其背后逻辑的决策，无论结果多么精准，都可能因其合规性与可靠性存疑而成为一颗“定时炸弹”，无法被真正信任和部署。

应对风险的两个方向

针对这些风险，企业可以通过两个方向做出努力：一是大模型的开发者从技术源头提高模型本身的性能，减少幻觉、做好价值对齐，保护隐私，提高可解释性。二是大模型的使用企业开展应用层治理，通过提示词工程、检索增强生成（RAG）、内容过滤器、可解释性AI（XAI）等工具和方法，以及严格的管理手段和流程，主动将风险控制在可接受范围内。

目前，市场上的大模型都在快速迭代中。针对幻觉问题，模型推理能力的持续提升、通过强化学习训练模型在面对不确定性时主动承认其知识边界等做法，都有助于缓解这一问题。

OpenAI新发布的GPT-5的深度推理模型相比前代o3，幻觉率已大幅降低65%。

针对输出安全问题，更精细的指令微调（InstructionTuning）和人类反馈强化学习（RLHF）等对齐技术，可以更好地引导模型遵循人类设定的规范与价值观，减少有害内容的生成。

针对模型数据潜在的隐私泄露问题，开发者正结合差分隐私（DifferentialPrivacy）技术，在训练数据中加入“噪声”以保护个体信息。

在可解释性领域，以DeepSeekR1为代表的引导模型以思维链展示其推理过程的做法，是提升决策透明度的重要进展。Anthropic等公司研究的“机制可解释性”等方法，正在尝试从底层“看透”AI的内部工作机理，理解其决策的根本原理。

需要注意的是，受限于大模型的底层技术原理——基于概率预测的统计特性、深度神经网络的黑箱本质，以及海量非结构化数据训练的复杂性——这些风险可能始终无法被彻底根除，需要大模型应用企业长期关注，在部署和应用时进行优化工作，进一步降低其风险。

在大模型应用的企业层面，企业的整体思路可以是将大模型或由其驱动的AI智能体（AIAgent），想象成一位新入职的数字化员工。这位特殊的AI员工可能像一个急于表现的实习生，在知识盲区时一本正经地编造信息（幻觉问题）；像一个缺乏经验的新人，不经意说出冒犯性或不合规言论（输出安全性问题）；像一个保密意识薄弱的助理，无意泄露公司机密（隐私合规问题）；甚至像一个有很好的商业直觉的高管，却让人无法理解其决策逻辑（可解释性问题）。AI能犯的错误，人类都有前科。企业可以把管理员工的丰富经验迁移到管理AI上来。

对于防范幻觉（虚假信息）问题，企业是如何减少员工犯此类错误的？无非是一方面选对人，聘任有真才实学、稳重谨慎的员工；另一方面通过组织和流程减小或中和个人犯错的概率。

对于AI，我们可以选择基础能力更强的大模型。这一点很容易做到，大模型公司很多，但做得最好的就几家。此外，像要求员工“用数据说话”一样，我们可以为AI提供参考资料，并要求它引用来源。例如，使用检索增强生成（RAG）技术，让AI基于企业内部知识库生成回答；通过提示词工程（即精心设计指令），设定明确的任务边界、工作范围和行为准则；同时，借鉴“开评审会”的思路，进行交叉验证：让多个模型处理同一问题，用集体智慧识别和修正个体错误。

对于输出安全（不当言论）风险，企业会对员工发放员工手册，进行大量岗位培训和企业文化教育，并且严格审核对外发布的内容。对于AI员工，企业也可以定制一份数字员工手册：为模型设置系统提示词，定义其角色和行为红线，进行岗前培训；通过专门设计的安全问答数据集进行微调来做持续的企业文化熏陶；在内容把关上，在输入和输出端部署过滤器，实时拦截不当内容，确保对外发布前严格检查。

对于隐私合规、数据泄露风险，企业会要求关键员工签署严格的保密协议（NDA），制定分层的数据访问权限，以“最小权限原则”等来降低数据泄露的风险。对于AI可以用类似的逻辑来操作：选择云服务商时，签署数据处理协议（DPA），确保输入数据不用于模型再训练；遵循最小权限，非必要不提供敏感信息，必要时先脱敏处理（如替换姓名、金额）；在数据敏感行业（如金融、军工），还可采用私有化部署（自有服务器）或可信执行环境（TEE）技术，后者像在云端租用加密“保险箱”，防止任何人窥探数据处理过程，兼顾安全与灵活性。

对于可解释性风险，有些经验丰富的员工基于优秀的业务直觉做出判断，但要说服领导、同事支持该决策，还需要补全背后的思考，拆解清楚其中的逻辑。

对于AI员工，可以要求模型在给出最终答案前，先输出一步步的推理过程，即“思维链”，这有助于理解模型的决策逻辑。这就好比让诸葛亮把草船借箭的整个推演过程——从观察天气到揣摩人心——边想边写下来以便我们理解。

此外，借助注意力可视化技术，能通过热力图中颜色的深浅，直观看出LLM（大语言模型）在生成回应时对各输入词汇的关注程度，也有助于直观理解决策依据。这就好比通过热力图，我们能看出诸葛亮定下空城计，其判断依据正是高度集中于“司马懿生性多疑”与“我方无兵”这两条关键情报。

除了这些直观的解释方法外，企业还需要在管理上对AI员工有限授权、控制风险。在创意、文案初稿等主观性强、风险低的领域，允许大模型相对自由发挥；但在金融风控、医疗诊断等事关企业命脉的高风险领域，它的“锦囊妙计”只能作为人类专家的参考。

需要注意的是，我们必须清醒地认识到上述解释方法的局限性。例如，思维链本身也是模型生成的文本，是模型对人类推理过程的一种事后模拟或合理化的表达，并不能完全客观地反映模型内在的真实推理逻辑。同样，注意力可视化等技术也大多属于局部解释，只能让我们管中窥豹，真正深入、全面的大模型可解释性，还有待研究人员进一步探索。

企业问责需明确

以上是通过类比管理人类员工来借鉴性地理解和启发应对大模型的风险。但AI员工和人类员工仍然有一个重要区别：大模型无法“背锅”，责任永远在人。

如果模型出错导致客户损失或公司声誉受损，企业不能简单“开除”它来解决问题，大模型目前还无法成为责任主体。责任只能追溯到人类，如批准使用的业务负责人、部署维护的技术团队，或制定规则的管理层。因此，企业在引入大模型时，需设计清晰的问责框架，将部署、使用和效果等纳入具体员工或团队的KPI。

AI大模型的发明给企业带来了前所未有的机会和风险。AI在很多方面赶上了甚至超过了人类，但也在其他方面给企业带来了比人类更大的风险。

在现在这种状态下，AI和人类各有优缺点。所以，企业管理的最优解是让人和AI协同作战，通过组织、流程发挥各自的长处，屏蔽各自的短处。

这是一个变化飞快的动态过程，随着AI的进步，企业的组织和流程也需要随之调整。企业需要加快步伐，跟上变化的节奏才不会被淘汰。

（刘劲系大湾区人工智能应用研究院理事、特聘专家，长江商学院会计与金融学教授，段磊系大湾区人工智能应用研究院研究总监，鄢然系大湾区人工智能应用研究院助理研究员。上海交通大学副教授张拳石和上海交通大学博士研究生楼思余，对本文大模型风险的技术理解亦有贡献）

免责声明：本文观点仅代表作者本人，供参考、交流，不构成任何建议。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.