网易首页 > 网易号 > 正文 申请入驻

理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

0
分享至

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

丰谭笔录
2026-01-07 10:59:38
1800亿规模!高奢跌落神坛,轻奢放下身段,靠奥莱“收割”中产

1800亿规模!高奢跌落神坛,轻奢放下身段,靠奥莱“收割”中产

品牌观察官
2026-01-07 17:53:43
被闺蜜“抢走”老公的后续:闺蜜多张照片被曝光,不如原配好看

被闺蜜“抢走”老公的后续:闺蜜多张照片被曝光,不如原配好看

牛牛叨史
2026-01-03 17:38:28
推翻对华承诺不到24小时,特朗普先对俄罗斯下手,中国要小心了

推翻对华承诺不到24小时,特朗普先对俄罗斯下手,中国要小心了

林子说事
2026-01-08 11:57:50
站在中国领土上,李在明一句话评中日交锋,日本右翼冒汗:不对劲

站在中国领土上,李在明一句话评中日交锋,日本右翼冒汗:不对劲

闻识
2026-01-08 11:25:37
有本事但没什么架子的三个星座

有本事但没什么架子的三个星座

星座叶大仙
2026-01-08 10:59:14
捉走马杜罗后,特朗普马上提到中国!果然不出所料,要赚中国大钱

捉走马杜罗后,特朗普马上提到中国!果然不出所料,要赚中国大钱

朝子亥
2026-01-08 12:15:02
陈坤的儿子已成年,容貌开始显现母亲的基因,像谁可以认出来吗?

陈坤的儿子已成年,容貌开始显现母亲的基因,像谁可以认出来吗?

查尔菲的笔记
2026-01-07 13:12:27
曝广东可能上诉!陈家政三分球没踩线,裁判专家怒喷:业余联赛!

曝广东可能上诉!陈家政三分球没踩线,裁判专家怒喷:业余联赛!

杜鱂手工制作
2026-01-07 13:41:19
日本抗议无效!不到48小时,大国发布第2号公告,对日反倾销调查

日本抗议无效!不到48小时,大国发布第2号公告,对日反倾销调查

叮当当科技
2026-01-08 11:45:38
高市早苗如此挑衅中国,离不开两名中国败类的影响和出谋划策!

高市早苗如此挑衅中国,离不开两名中国败类的影响和出谋划策!

阿胡
2025-12-26 13:24:43
抗战时,一新四军落入敌手,监牢之内翻译提醒道:审讯时说家乡话

抗战时,一新四军落入敌手,监牢之内翻译提醒道:审讯时说家乡话

史之铭
2026-01-08 09:29:56
侄子暑假回家,礼物发遍全家唯独漏掉我,开学我拒交4万学费

侄子暑假回家,礼物发遍全家唯独漏掉我,开学我拒交4万学费

小秋情感说
2026-01-06 14:34:58
托蒂:如果当年加盟皇马我会拿金球奖;2017年退役是被逼的

托蒂:如果当年加盟皇马我会拿金球奖;2017年退役是被逼的

懂球帝
2026-01-08 03:09:25
记者:因没收到非洲杯前四场比赛奖金,尼日利亚全队考虑罢训

记者:因没收到非洲杯前四场比赛奖金,尼日利亚全队考虑罢训

懂球帝
2026-01-08 00:41:06
TVB夜,62岁龚慈恩端庄造型秒杀暴露后辈

TVB夜,62岁龚慈恩端庄造型秒杀暴露后辈

星星没有你亮
2026-01-06 16:44:04
男子出走失联5天后续:原因曝光,车被丢高速,家人已做最坏打算

男子出走失联5天后续:原因曝光,车被丢高速,家人已做最坏打算

不写散文诗
2026-01-07 15:17:21
韩国女星自爆刚出道因身材好被迫裸露…

韩国女星自爆刚出道因身材好被迫裸露…

奋斗在韩国
2026-01-05 19:40:50
比中国卫星猛3倍!脑机接口+商业航天,6大龙头藏不住了

比中国卫星猛3倍!脑机接口+商业航天,6大龙头藏不住了

Thurman在昆明
2026-01-07 13:42:37
费尔明传射,拉菲尼亚独造3球!巴萨造5-0惨案,坐等马竞死磕皇马

费尔明传射,拉菲尼亚独造3球!巴萨造5-0惨案,坐等马竞死磕皇马

篮球看比赛
2026-01-08 11:49:04
2026-01-08 13:11:00
新尧网国内 incentive-icons
新尧网国内
新尧网官方帐号
3329文章数 10310关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

委内瑞拉外长:感谢中方支持

头条要闻

委内瑞拉外长:感谢中方支持

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

健康
艺术
家居
公开课
军事航空

这些新疗法,让化疗不再那么痛苦

艺术要闻

颐和园金光穿洞

家居要闻

理性主义 冷调自由居所

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版