![]()
与传统的遗留数据集不同,AI生成的内容和洞察往往存在于一个真空环境中,被创建、使用并被视为理所当然,缺乏适当的治理。不幸的是,对于那些不提供适当监督的公司——以及主动治理AI数据的公司——它们容易受到看不见的风险影响。
换句话说,未经治理的AI数据可能会毒害整个系统。这使得公司容易面临法律或合规问题、知识产权担忧、数据溯源和问责制漏洞,以及不一致的数据结果。
与此同时,理解治理AI生成洞察和数据重要性的数据管理负责人面临着主动治理的挑战,而不是持续地被动地修复或应对数据问题。
建立AI数据治理框架
公司不应该简单地接受AI合成数据的表面价值并将其从系统中提取出来,而是需要确保所有合成数据和生成式AI驱动的洞察都经过标记、追踪、溯源、存储和适当治理。
企业可能行动过于迅速,从系统中摄取AI驱动的数据,将其保存到文件共享中,然后将其整合到他们的系统中,而不追踪历史记录。缺乏适当AI数据治理的公司可能面临意外结果、法律问题和基于可疑来源的决策。需要关注的项目包括:
监管框架,如欧盟人工智能法案。
生成式AI开发的信息图表巧妙地使用其他组织拥有的图像,导致公司支付版税。
为活动生成的营销文案可能出现幻觉,导致AI直接借用无法使用的文本或引用,引发法律问题。
使用AI构建的大型合成数据集用于训练模型,然后推入生产环境。不追踪谁创建了这些数据、何时何地创建的公司可能会失去这些基础知识,导致团队反复重新创建数据集。
通过AI持续重新创建数据集会导致数据不一致,因为每次提取可能都不同。不断重新制作大型合成数据集——只是让它们消失——就像建造和融化冰山一样。AI驱动的洞察对业务团队来说非常有用和便利,但这个过程不需要鲁莽和浪费。
实施有效的AI治理策略
在生成洞察之前,企业需要建立最佳实践来治理AI数据的使用方式。这包括标记、溯源、存储和建立AI数据问责制等基础步骤。其他关键策略包括:
将所有数据源集中到中心。公司需要将数据源——AI生成的、内部数据、外部来源等——集中到云端,在那里可以被标记、追踪,而不会被过滤到中心之外的不同位置。
消除孤岛。不同的业务团队在使用和创建数据的方式上可能有所不同,自然地导致他们在孤岛中工作。所有团队都需要从单一的真实来源共同工作。
不要将AI视为理所当然。在文化上,公司应该让业务团队明白不要将AI视为理所当然。仅仅因为洞察、内容和图像容易通过AI生成,并不意味着应该忽视治理步骤。
在AI标记方面保持警惕。确保用户通过使用的特定AI模型和版本来标注AI输出。包括AI生成时的时间戳;哪个用户发起请求;以及正在提取什么内容(分析、建议、摘要、内容)。将结果与置信度分数一起应用。
构建协作治理文化
提供严密数据管理系统的公司依赖于整个组织的全面协作。IT和法律团队、合规官员以及每个业务单位必须共同合作,制定适合他们且易于遵循并保护组织的指导方针。
AI工作速度很快,用户倾向于利用模型获得即时满足,但缺乏治理会产生风险和合规问题。追踪、跟踪、存储和适当构建AI数据可以提高其系统的整体AI素养,并通过提供可靠结果和减少冗余工作流来加速AI投资回报率。
展望未来,围绕AI的法规预计将加强。现在标记、监控和治理AI输出的公司将建立能够应对法规变化的基础设施,成为可扩展、有利可图的资产。
Q&A
Q1:为什么AI生成的数据需要特别治理?
A:AI生成的数据往往存在于真空环境中,缺乏适当的治理。未经治理的AI数据会带来法律合规问题、知识产权担忧、数据溯源漏洞和不一致的结果,可能导致公司面临意外风险和基于可疑来源的决策。
Q2:企业应该如何建立有效的AI数据治理策略?
A:企业需要将所有数据源集中到云端进行统一管理,消除部门间的数据孤岛,建立标记、追踪、溯源和存储的最佳实践。同时要确保AI输出包含模型版本、时间戳、用户信息和置信度分数等关键信息。
Q3:AI数据治理对企业有什么长远价值?
A:良好的AI数据治理可以提高系统的AI素养,通过提供可靠结果和减少冗余工作流来加速投资回报率。随着AI法规的加强,现在建立治理基础设施的公司将能够更好地应对法规变化,成为可扩展的盈利资产。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.