国家知识产权局信息显示,支付宝(杭州)数字服务技术有限公司申请一项名为“基于多模态大语言模型的图像理解方法、装置及系统”的专利,公开号CN121837861A,申请日期为2025年12月。
专利摘要显示,本说明书提供一种基于多模态大语言模型的图像理解方法、装置及系统,多模态大语言模型包括视觉编码器、文本编码器、特征注入器和语言解码器,方法包括:获取待理解的目标图像以及提示词;将目标图像输入视觉编码器,以进行串行编码;将提示词输入文本编码器进行编码得到文本嵌入向量;对末层的视觉编码层输出的视觉特征向量和文本嵌入向量进行组合,将得到的组合特征向量输入语言解码器,以进行串行解码;在串行解码的过程中,通过特征注入器将至少一个视觉特征向量注入第i个语言解码层输出的解码特征向量得到融合特征向量,并将融合特征向量输入第i+1个语言解码层;根据末层的语言解码层输出的解码特征向量确定针对目标图像的理解结果。
天眼查资料显示,支付宝(杭州)数字服务技术有限公司,成立于2016年,位于杭州市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本10000万人民币。通过天眼查大数据分析,支付宝(杭州)数字服务技术有限公司共对外投资了12家企业,参与招投标项目67次,财产线索方面有商标信息92条,专利信息5000条,此外企业还拥有行政许可60个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.