检索增强图像生成(Retrieval-Augmented Image Generation, RAIG)技术的广泛应用引发了对私有图像数据集未授权使用的严重担忧。虽然这些系统通过参考图像展现了卓越的生成质量提升能力,但保护视觉数据集免受此类系统的未授权使用仍然是一个极具挑战性的问题。传统的数字水印方法在RAIG系统中面临局限性,因为复杂的特征提取和重组过程无法在生成过程中保留水印信号。
为解决这些挑战,本文提出ImageSentinel框架,通过合成与原始数据集保持视觉一致性的哨兵图像来实现数据集保护。这些哨兵图像能够通过随机生成的字符序列作为检索密钥进行保护验证。实验结果表明,ImageSentinel能够有效检测未授权的数据集使用,同时为授权应用保持生成质量。
![]()
论文标题: ImageSentinel: Protecting Visual Datasets from Unauthorized Retrieval-Augmented Image Generation 论文链接: https://arxiv.org/abs/2510.12119v1一、背景与动机
检索增强图像生成(RAIG)技术近年来取得了显著进展,通过在生成过程中检索和利用相关参考图像,这些方法在稀有概念生成和精细图像合成等具有挑战性的任务中实现了卓越性能。然而,由于这些方法严重依赖高质量的参考图像数据库,私有数据集的未授权使用已成为日益严峻的问题。
恶意用户可能在未经授权的情况下将私有图像数据集整合到其检索系统中。这种未授权使用不仅侵犯知识产权,还给数据集所有者带来重大的法律和商业风险。尽管这些担忧日益加剧,目前尚不存在有效的机制来保护视觉数据集免受RAIG系统的未授权使用,也没有可靠的方法来检测此类滥用行为。
![]()
图1 数据集保护示意图
一个直接的解决方案是对私有数据集应用数字水印技术。然而,传统水印方法在RAIG系统中并不适用。与文本生成中内容通常被直接引用或转述不同,图像生成涉及复杂的特征提取和重组过程,从根本上改变了视觉元素,通常会破坏任何嵌入的水印,使此类保护策略不适用。
为克服这些局限性,本研究提出了一种新颖的保护策略,将特制的验证图像整合到私有数据集中。这些图像设计为可通过特定预定义密钥检索,同时保持与私有数据集的视觉一致性。本文将此类图像称为哨兵图像,当与独特的检索密钥结合使用时,可作为私有数据集使用的可靠指标。通过检查特定检索密钥是否触发生成与我们保护图像匹配的内容,可以有效检测数据集滥用。
二、方法
本文提出的ImageSentinel框架如图2所示,包含三个关键组件:密钥生成、哨兵图像合成和未授权使用检测。
![]()
图2 方法整体架构
密钥生成:生成独特的随机字符序列,作为保护验证的触发器。这些随机字符组合在正常用户提示中极少出现,既确保对RAIG系统正常运行的最小干扰,又提供了检测未授权使用的独特触发机制。
哨兵图像合成:如图3所示,哨兵图像合成过程包含两个主要阶段:属性提取和密钥引导的图像嵌入。
![]()
图3 哨兵图像合成流程
首先,利用视觉-语言模型(如GPT-4o)从私有数据集的参考图像中提取全面的语义属性,包括主题内容、视觉风格、构图和色彩等关键特征。这种全面的语义分析确保合成的图像能够保持与私有数据集的视觉和主题一致性。
其次,通过文本到图像模型进行密钥引导的图像合成。对于给定的语义属性集、描述和检索密钥,构建基于模板的提示,在保留原始语义属性的同时描述所需的密钥特定修改。这种精心设计的提示确保生成的哨兵图像既包含参考图像的语义属性,又包含检索密钥信息,同时保持自然的视觉整合。
未授权使用检测:为检测RAIG系统是否未经授权使用了保护数据集,本文利用哨兵图像与其对应密钥之间的嵌入连接:如果系统在使用这些密钥查询时生成的图像与哨兵图像具有高视觉相似度,则表明该系统可能将受保护数据集用作其参考数据库。检测过程使用DINO特征计算生成图像与哨兵图像之间的余弦相似度,当聚合相似度分数超过预定义阈值时,判定发生未授权使用。
三、主要实验结果
定性结果分析:图4和图5展示了在LLaVA-Pretrain数据集和Product-10K数据集上的定性结果。
![]()
图4 不同RAIG系统的生成图像定性比较
如图4所示,当RAIG系统恶意整合受保护的私有数据集时,它们生成的图像与哨兵图像高度相似,DINO相似度分数显著较高。相比之下,在没有未授权数据集访问的情况下运行的系统生成的图像明显不同,相似度分数较低,尽管接收相同的随机字符序列作为提示。
![]()
图5 Product-10K数据集上的定性结果
在Product-10K数据集上的结果表明,哨兵图像自然地整合了关键字符,同时保留了产品的基本特征,如风格、配色方案和包装设计。具有哨兵图像访问权限的生成图像明显整合了嵌入的哨兵图像,而没有访问权限的图像显示出明显不同的视觉元素。
检测性能评估:表3展示了在不同查询次数下的检测性能比较。
![]()
表1 不同查询次数下的检测性能
实验结果表明,ImageSentinel在所有评估指标上均大幅优于Ward-HiDDeN和Ward-FIN基线方法。仅使用3次查询,ImageSentinel就已实现了较高的检测性能。当查询次数增加到10次和20次时,该方法在所有三个RAIG系统上达到接近完美的检测性能,AUC分数达到1.0。相比之下,两种基线方法即使增加查询次数,也显示出有限的检测能力,AUC分数仍接近随机水平。
生成质量评估:表5比较了不同保护场景下的生成质量。
![]()
表2 不同保护场景下的生成质量比较
结果显示,虽然原始RAIG系统达到最佳性能,哨兵图像替换方案显示出显著的质量下降,但ImageSentinel保持了与原始系统相当的生成质量。这表明本文的保护机制在实现未授权使用检测的同时,有效保留了RAIG系统的正常功能。
四、总结与展望
本工作提出了ImageSentinel框架,这是一种保护视觉数据集免受检索增强图像生成系统未授权使用的创新解决方案。通过精心合成的哨兵图像和相应的检索密钥(独特的随机字符序列),该方法在保持数据集实用性的同时实现了可靠的检测能力。广泛的实验表明,ImageSentinel在检测准确性方面显著优于基线保护方法,同时对生成质量的影响最小。
该方法在多个领域具有广阔的应用前景。在商业领域,摄影机构、设计公司和电商平台可以利用该技术保护其高价值的图像资产,防止竞争对手或第三方未经授权将其图像数据库用于检索增强生成系统。在艺术创作领域,艺术家和画廊可以保护其数字作品集免受未授权的检索增强AI系统使用,维护创作者的知识产权和经济利益。此外,该技术还可应用于卫星遥感图像、工业检测图像等专业数据集的版权保护,为数据资产的安全流通提供技术保障。
来源:公众号【HKBU计算机系】
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.