训练大模型要小心什么？这场研讨会热议AI语料建设与合规|语料库|人工智能

训练大模型要小心什么？这场研讨会热议AI语料建设与合规

2024-03-03 20:47:11　来源: 南方都市报

广东举报

分享至

据中国网络空间安全协会消息，2024年3月2日下午，中国网络空间安全协会人工智能安全治理专业委员会在北京召开“人工智能语料建设与合规”专题研讨会。来自专委会成员单位、律所和相关领域科研机构、企业、社会组织等单位的三十余位代表参会，围绕大模型语料版权、确权的重点议题进行交流。

研讨会以线上及线下相结合的方式开展，参会嘉宾围绕人工智能语料建设与合规展开交流，并针对人工智能模型训练阶段所涉及的知识产权相关法律问题进行全面深入探讨，旨在促进我国人工智能高质量发展。

训练大模型需兼顾版权合规

与会嘉宾认为，大规模高质量数据获取、使用的紧迫性与现行法律法规对著作权的明确性是推动人工智能发展与治理需要应对的重要课题。

版权作品保护无法外之地。第十四届全国人大代表，贵州贵达律师事务所主任朱山认为，网络空间和人工智能大模型训练要在兼顾发展与安全基础上循法而为，政策和制度保障要统筹兼顾依法保护与合理运用的平衡，要加快人工智能立法进程。

第十四届全国人大代表、大湾区国际信息科技协会香港会长、数字化经济发展委员会委员杨德斌指出，为发展人工智能，语料是非常重要的资源。在训练人工智能过程中，需要尊重语料库版权。同时，也要考虑到中文和英文语料库来源的丰富性。香港作为一个高度国际化城市，可以在收集中英文语料库和利用普通法保护版权著作上发挥国家所需、香港所长的作用。

第十四届全国人大代表、中手游联合创始人兼副董事长、国宏嘉信资本创始合伙人兼董事长冼汉迪认为，大模型训练存在较大侵权风险，建议在明确合法使用版权作品的前提下，有限豁免大模型使用语料的版权责任；要鼓励技术创新，如开发智能版权识别技术等，更好地应对版权问题；要鼓励公众积极参与讨论，提升大众版权意识，推动知识产权教育，共同推动人工智能的健康发展。

第十三届全国人大代表、中共中央党校（国家行政学院）社会和生态文明教研部教授、博士生导师丁元竹提出，将版权所有者或内容创建者文本收入语料库前，须获得他们的明确认可，明确使用范围、期限。尽可能开放具有公共属性的文本材料。对受版权保护的文本要注明出处，明确原创作者。积极开发能够识别生成文本的水印技术。培育适应生成式人工智能环境下尊重版权的文化氛围，深入研究和严格定义生成式文本与人类知识生产的异同。

语料建设及数据获取需遵循法律规范

此次研讨会上，专家一致认为数据获取、语料建设需要遵循相关法规、标准和规范，要推动形成科学有效的语料库汇聚、处理、使用机制，以解决数据获取和使用的合法化问题，要在政策法规上统筹兼顾有效保护和合理运用的平衡，推进高质量语料流通使用，推动人工智能又好又快发展。

第十四届全国政协委员、首都经济贸易大学中国市场主体研究院院长屈庆超表示，中文语料库是数据要素的重要组成，如何进一步充分释放数据要素价值，要关注创新产权机制和促进数据要素流通两方面问题；要对中文语料库所有权、使用权、经营权等权属进行分类确权管理；支持链主企业，引导产业发展；探索中文语料数据资源资产化、市场化、产业化发展的有效模式和可行路径；夯实智能技术底座，组建创新联合体。

中华全国律师协会网络与高新技术专业委员会副主任、中伦律师事务所合伙人陈际红认为，大模型技术不断取得创新突破，也遇到一些挑战，其中之一就是大规模预训练数据获取与目前法律限制的矛盾。关于解决路径，近期来看，在现有法律框架下通过数据“登记进入-选择退出”、合理使用、共享协议、版权集体管理等机制解决数据获取和使用的合法化问题；远期看，对目前的法律制度进行革新，以适应和包容人工智能技术的发展。

浙江大学光华法学院教授、博士生导师张伟君提出，在人工智能技术国际竞争愈发激烈而我国的相关技术并不具有领先优势的现实面前，为了促进人工智能技术的进步，在各国都还在谨慎评估人工智能训练中使用数据是否构成合理使用的情况下，宜稳妥审慎处理相关数据获得授权。

中国政法大学数据法治研究院教授、博士生导师张凌寒提出，大规模预训练数据或语料获取需要与目前法律框架规定相衔接，不仅需要处理好知识产权制度的关系，也需具备收集使用个人信息的合法性基础，要在鼓励发展的基础上，在制度设计中充分考虑“数据二十条”等国家政策方针可能指向的企业数据财产权益未来制度。

积极探索人工智能新立法

此次会议上，还从宏观层面探讨了人工智能合规的立法探索。

北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括认为，从国际地缘政治和人工智能全球竞逐态势看，公共数据资源投入意义重大，提升人工智能语料建设和生态水准十分迫切，积极发展人工智能数据治理技术与应用，推动培育安全合规、多方参与、共建共享的高水准产业。立足当下的产业和业务引导需求，在立法修改工作的研究准备以外，需要最高司法机关及时出台专项司法解释，例如个人信息民事侵权司法解释等，并且领导和推动各级司法机关持续推出相关典型案例，通过个案的司法裁判有效平衡和回应产业各方的前沿、具体需求。

国衡智慧城市科技研究院院长、国家发改委中国经济体制改革研究会理事曾勇指出，对AIGC的合规要求不宜过度，要重点参照当前所颁布的网络信息、隐私保护以及相关的法律法规；要提前积极介入，从人工智能布局源头就开始合理合规有效引导和监督，要兼顾现实和长远；再次，要大力支持和广泛推进人工智能尤其是生成式人工智能技术的突破和发展。

中国法学会法治研究所研究员、中国法学会网络与信息法学研究会理事兼副秘书长刘金瑞指出，利用包含受著作权保护的语料训练AI大模型的行为，无论是数据收集、数据处理还是结果生成阶段，根据我国《著作权法》相关规定，仍存在较高侵权风险，目前在司法中被认定为合理使用面临较大的难度。为了顺应和鼓励人工智能发展，充分释放数据价值，应该在平衡著作权人合法权益保护的前提下，积极探索我国人工智能训练语料合理使用的新立法。

出品：南都大数据研究院

采写：南都记者张雨亭

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

专题推荐

手机 / 数码

房产 / 家居

训练大模型要小心什么？这场研讨会热议AI语料建设与合规