国家知识产权局信息显示,北京同力数矿科技有限公司申请一项名为“一种基于扩散模型的多模态图像上色方法及系统”的专利,公开号CN121414877A,申请日期为2025年10月。
专利摘要显示,本发明涉及一种基于扩散模型的多模态图像上色方法及系统,属于图像上色技术领域,包括:判断待上色图像是否有语言信息和笔画信息;若判断结果为有语言信息和笔画信息,实现语言信息对上色的控制以及笔画信息对上色的控制;基于去噪U‑Net中的边缘引导的注意力机制模块约束待上色图像上色的整体边缘;训练过程中,训练边缘引导注意力机制模块,固定去噪U‑Net权重后,再训练笔画适配器分支。本发明中去噪U‑Net据语言信息和笔画信息调整不同区域的颜色分布;边缘引导注意力机制模块通过约束图像边缘区域,防止颜色溢出至不应着色的区域;在训练过程中,采用分布式训练方式提高去噪U‑Net收敛效率和稳定性。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.