金融界2025年7月19日消息,国家知识产权局信息显示,北京智谱华章科技股份有限公司申请一项名为“基于视觉语言模型的超长音视频理解方法、系统和设备”的专利,公开号CN120336483A,申请日期为2025年04月。
专利摘要显示,本发明属于人工智能技术领域,涉及一种基于视觉语言模型的超长音视频理解方法、系统和设备,所述方法包括:1)利用微调后的大语言模型对用户问题进行多粒度意图识别,以确定用户问题的询问模式,询问模式包括单图询问模式、音频内容询问模式和视频内容询问模式;2)基于询问模式和用户问题对用户输入的图片、音频和视频进行识别,获得识别内容;3)基于时空提示机制和分层生成机制使用大语言模型对识别内容进行多模态信息融合;4)将用户问题和多模态信息融合结果输入视觉语言模型中,生成用户问题的对应答案。
天眼查资料显示,北京智谱华章科技股份有限公司,成立于2019年,位于北京市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本4028.1069万人民币。通过天眼查大数据分析,北京智谱华章科技股份有限公司共对外投资了24家企业,参与招投标项目200次,财产线索方面有商标信息279条,专利信息212条,此外企业还拥有行政许可6个。
本文源自金融界
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.