陈晓霞:个人数据安全规制路径分析—以文生视频模型Sora为切入点|算法|原理|sora|用户文档

陈晓霞:个人数据安全规制路径分析—以文生视频模型Sora为切入点

分享至

引言

2月16日凌晨，美国开放人工智能研究中心OpenAI发布首个视频生成模型“Sora”。借助简单的文本指令，Sora便能够创造出长达60秒的视频，并且可以展示多视角的镜头切换和丰富的细节。目前OpenAI在官网发布了48个由Sora直接生成且未经修改的视频，逼真的场景、流畅的运镜、生动的人物表情，使人难以分辨这些视频是实际拍摄产生的还是由AI技术生成的。Sora重新定义了AI文生视频在现阶段的技术极限。

实际上，随着2022年底ChatGPT的现象级面世，以及时隔一年后Sora引发的关注，都昭示着人类社会正在面临一场知识革命，随之而来的法律风险亦不容忽视。我国高度重视数据风险的分析与预防，在人工智能技术兴起之后，先后出台了《数据安全法》《个人信息保护法》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法（征求意见稿）》等法律规范，从多方面对人工智能应用数据加以规制。但是，实践中仍然存在着保护错位的困境。本文立足于实践中产生的数据过度采集、数据泄露、数据偏见等潜在风险，基于实现人工智能发展和数据安全保护的动态平衡为目标，分析我国现存的困境及其成因，探索未来可行的法律规制路径。

一、简析Sora的运行原理

简单来说，Sora可以理解为具备视频生成、视频合成、图片生成三大核心功能的生成模型。它能够理解用户的文字提示，直接生成长达一分钟不同尺寸的视频，且这一分钟的视频并非单一场景，而是由多个镜头组成。同时能够确保多个镜头之间的人物、场景等整体3D效果与细节的一致性，并实现不同主题和场景组成的视频之间的无缝过渡。其实际运行原理仍然是依托大模型的基础，对海量现有图片和视频数据进行训练。文生视频的难度在于，视频本身数据量大且非常复杂。大语言模型如果要捕捉到视频数据的逻辑，会面临巨大的挑战。但是，Sora可以做到。它不仅能捕捉到视频中的细节信息，也能涵盖宏观场景化信息，进而生成非常合理、看上去都找不到破绽的视频。其关键技术在于Sora使用了Transformer架构，建立在DALL·E 3和GPT模型之上。尤其是要生成长达1分钟的有运动、多机位的视频，需要穿梭表达这些信息，至少是10倍或者100倍复杂度的提升。本质上来说，Sora仍然离不开几项关键技术：大算法、大算力、大数据。这三种关键技术共同建构起了强大的大型语言模型（LLMs），成为了人工智能拥有强大功能的重要基础。

二、潜在数据风险分析

从上述运行原理可以看出，Sora的运行仍然离不开数据，数据是一切算法、算力的基础。因此，对以Sora为代表的生成式人工智能衍生风险的研究，实际上是对其背后的数据安全的研究。实际上，这类人工智能的运行流程可以简化为数据准备——数据生成——数据产出三个阶段，其风险也可以分别从这三个阶段入手进行分析。

数据准备阶段最明显的弊病就是数据过度采集而造成的侵权风险。正如前文所述，一个功能强大的人工智能需要配备大型语言模型，而这个大型语言模型的建构需要海量的数据。同时，类似Sora这样基于用户需求并需要human feedback，即通过人的反馈，再持续增强学习的人工智能，会更依赖于收集用户的个人历史数据，并通过对这种数据的吸收和学习升级成更符合用户需求的答案，在这样迭代更新的过程中，用户的浏览记录、社交互动等数据在不断地被采集、分析。除个人信息处理的“法定许可”外，个人信息的收集与处理均需取得信息主体的同意。因此，当生成式人工智能的模型开发者需要对相关个人信息进行收集、处理时，其应当取得信息主体的同意，否则便属非法。但是，实践中，生成式人工智能的模型训练却广泛存在着未取得信息主体同意而收集、处理其个人信息的情形。例如：2023年6月28日，总部位于加州的克拉克森律师事务所（ClarksonLawFirm）便向加州北部地区巡回法院提交了一份长达157页的起诉状，对OpenAI和微软提起了一项集体诉讼，指控被告在开发、营销和运营其人工智能产品时，非法地收集、使用和分享了数以亿计的互联网用户的个人信息，侵犯了原告的财产权、隐私权和其他法律权利，并给社会带来了潜在的灾难性风险。

在数据生成阶段，数据泄露是一个严峻的问题。例如：2023年3月20日，ChatGPT发生了一起严重的信息安全事故，部分用户的聊天记录片段、用户信用卡信息（包括最后4位数字、到期日期）、姓名、电子邮件地址和付款地址等敏感信息遭到泄露。同时，当海量个人信息在对模型进行训练后，这些被收集、存储的个人信息可能未被及时删除，也将对信息主体的个人信息权益造成损害。

最后，产出阶段滋生了数据伪造和数据偏见问题。恶意用户可能会利用人工智能模型来生成虚假信息、误导性内容或恶意攻击。例如，他们可以故意输入虚假信息，以引导Sora形成视频，再利用这些视频进行虚假宣传、诈骗等违法行为。另一方面，人工智能模型是通过对大量数据进行训练而生成的，如果训练数据中存在偏见或歧视性内容，模型可能会学习并重复这些偏见。这可能导致生成的回答或建议具有偏见，甚至可能加剧社会不平等。

三、个人数据安全规制的路径转向

从上述风险分析中可以看出，在Sora等生成式人工智能模型对于数据的收集、处理与应用过程中，由于数据和公民个人的联系较为紧密，存在的风险也较为复杂，不仅在数据的收集广度上存在风险，还在处理深度以及结论应用上存在风险。鉴于此，人工智能对个人数据的利用流程应该予以规范化设置，确保新兴人工智能技术的应用不会破坏个人数据的内在利益平衡，而是合规地收集并通过加工分析出具有实际价值的真实结论，避免其算法算力被无端消耗。在未来，应结合其运作原理中的三个阶段，即数据准备、数据生成、数据产出来构建相应的合规制度，着力实现全流程数据合规处置。

首先，在数据准备阶段的个人信息收集问题。根据《个人信息保护法》第58条的规定，作为大型互联网平台的OpenAI公司，应当按照国家规定建立完善的个人数据保护合规制度体系，并设立独立监督机构来审查其人工智能产品所收集的数据的合规性。特别是对于那些界限模糊的个人数据，应尽量避免收集，以防个人数据收集范围过于泛化。同时，应当建立健全个人信息数据确权授权机制，确保公民个人数据被采集的知情权、同意权，着力打造基于知情同意或存在法定事由的数据流通使用模式。除了数据处理平台的自查自管自省，国家及地方政府也应当参与到数据治理中来，携手共建数据合规监管体系，对不同安全级别的数据进行分类、分级监管，做到数据可反馈、共享过程可追溯、数据质量问题可定责，共同治理数据安全问题。

其次，在处理阶段，决定处理个人数据的深度时，应遵循最小必要性和最小比例原则。这意味着，在技术必要性的前提下，应避免对个人数据进行过度深入的分析，应围绕用户的需求来处理个人数据，而不是追求过高的结论精准度。人工智能的技术进步不能成为违规处理个人数据的借口，而是应以实现用户目的为限，最小化个人数据的收集和处理，以尽量减少对个人权益的限制和干预。

最后，针对产出阶段的数据偏见和数据伪造问题，应当在算法程序环节加强预防、核验与调整，通过人机合作进行全流程错误检查与合规审查，以实现计算效率与合规治理能力协调发展；同时提高算法治理体系的透明度，构建与之相适配的动态数据合规治理框架。通过进一步加强数据净化技术，并通过制定数据治理标准对敏感信息以及可能引发算法偏见的信息的隐匿化进行规范，在不降低数据质量的前提下进一步完善数据合规治理机制。未来，可以在法律法规领域采用试验性立法，以暂行条例、规定、实行办法、地方性法规等为载体，通过事前评估、事中监管、事后归责的方式，建立起全流程动态合规制度。

四、结语

当前，生成式人工智能仍然是一个新兴的领域，Sora等人工智能模型会逐渐深入社会生活，扮演不可或缺的角色。它们的演进也使法律领域迎来了新的挑战。为保证法律在日新月异的数字时代的适应性，应当通过对生成式人工智能全面、深入的分析，深刻把握和理解目前数据安全保护的困境，探寻其产生的根源，并努力寻找其发展的新路径，做好前置性的预防工作，进一步提升法律服务，通过对数据的分类以及后续合规处理措施的展开来消除数据的安全法律风险。

特别声明：

大成律师事务所严格遵守对客户的信息保护义务，本篇所涉客户项目内容均取自公开信息或取得客户同意。全文内容、观点仅供参考，不代表大成律师事务所任何立场，亦不应当被视为出具任何形式的法律意见或建议。如需转载或引用该文章的任何内容，请私信沟通授权事宜，并于转载时在文章开头处注明来源。未经授权，不得转载或使用该等文章中的任何内容。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.