国家知识产权局信息显示,谷歌有限责任公司申请一项名为“用于开放词表检测的对比特征掩蔽视觉模型”的专利,公开号CN121729723A,申请日期为2024年6月。
专利摘要显示,提供了表现出对输入图像的开放词表图像‑文本嵌入的改进的区域级预测的机器学习模型。这些视觉语言模型可以包括视觉Transformer。这些模型然后可以结合从这些模型接收输出的对象检测模型进行微调,以检测和识别输入图像中的对象,包括新颖对象。此类对象检测和识别模型可以通过结合此类视觉语言模型的尚未经历微调的“冻结”版本来进一步改进。可以通过利用以下两者来训练此类模型:(i)将针对输入图像确定的图像级嵌入向量与从描述图像的文本确定的嵌入向量进行比较的对比损失;以及(ii)在嵌入空间中将完整图像的表示与图像的来自图像的经掩蔽的子集的嵌入空间重建进行比较的重建损失。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.