网易首页 > 网易号 > 正文 申请入驻

理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

0
分享至

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

文史旺旺旺
2025-11-14 20:30:09
为什么英国仍然被认为是世界强国?

为什么英国仍然被认为是世界强国?

霹雳炮
2026-01-06 22:38:17
美媒:中国洲际隐身轰炸机高清照首次亮相。远超B21

美媒:中国洲际隐身轰炸机高清照首次亮相。远超B21

世家宝
2026-01-07 11:59:10
日本算清楚了,中国老实,挑衅中国的最坏结果,他们完全可以接受

日本算清楚了,中国老实,挑衅中国的最坏结果,他们完全可以接受

时分秒说
2025-12-23 11:20:17
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
毫无还手之力!辽宁78-108惨败广东,输球责任人非这四人莫属!

毫无还手之力!辽宁78-108惨败广东,输球责任人非这四人莫属!

田先生篮球
2026-01-12 00:15:16
2025年俱乐部球衣销量榜:皇马居首,巴萨第二,巴黎第三

2025年俱乐部球衣销量榜:皇马居首,巴萨第二,巴黎第三

懂球帝
2026-01-11 18:17:13
中国接连出招给日本去军事化,这招比稀土威力更大,断了日本退路

中国接连出招给日本去军事化,这招比稀土威力更大,断了日本退路

阿芒娱乐说
2026-01-12 02:27:14
输上海发布会!潘江亲承古德温离队有影响,正寻找适合球队的外援

输上海发布会!潘江亲承古德温离队有影响,正寻找适合球队的外援

篮球资讯达人
2026-01-12 02:58:28
广东队球员表现评分:王牌满分,四将优秀,四人不及格

广东队球员表现评分:王牌满分,四将优秀,四人不及格

体育一点就通
2026-01-12 01:55:29
日本拉面店禁止中国人入内!韩国网友揭露内幕并呼吁:我们也不能去!

日本拉面店禁止中国人入内!韩国网友揭露内幕并呼吁:我们也不能去!

奋斗在韩国
2026-01-10 14:03:22
潜艇全军覆没式造假,200多家企业沦陷,道歉成遮羞布

潜艇全军覆没式造假,200多家企业沦陷,道歉成遮羞布

知法而形
2026-01-09 09:50:41
特朗普听取汇报,威胁最快下周打击伊朗

特朗普听取汇报,威胁最快下周打击伊朗

山河路口
2026-01-11 12:14:33
“儿子都腺样体了,还吃烤肠呢?”一份糊弄早餐暴露家长的低认知

“儿子都腺样体了,还吃烤肠呢?”一份糊弄早餐暴露家长的低认知

妍妍教育日记
2025-12-26 17:18:26
德黑兰的黄昏:神性终将败给通胀

德黑兰的黄昏:神性终将败给通胀

债市邦
2026-01-11 22:44:01
打平就出线!U23国足成亚洲杯大黑马:赛后澳大利亚球员低下头颅

打平就出线!U23国足成亚洲杯大黑马:赛后澳大利亚球员低下头颅

足球大腕
2026-01-11 22:02:43
央视怒批!人民日报点名封杀!这5位目无法纪的大网红,彻底凉凉

央视怒批!人民日报点名封杀!这5位目无法纪的大网红,彻底凉凉

小嵩
2025-12-25 18:05:19
萨巴伦卡不失一盘连霸成功,生涯第22座冠军现役球员第三人

萨巴伦卡不失一盘连霸成功,生涯第22座冠军现役球员第三人

体育妞世界
2026-01-11 21:57:35
10岁丧父11岁断腿、放弃入籍阿联酋、俄乌边境遇生死

10岁丧父11岁断腿、放弃入籍阿联酋、俄乌边境遇生死

上观新闻
2026-01-12 04:33:04
港府官员访美“急刹车”,中央政府下达指令,绝不给美国可乘之机

港府官员访美“急刹车”,中央政府下达指令,绝不给美国可乘之机

依偎在角落
2026-01-09 10:21:16
2026-01-12 04:55:00
新尧网国内 incentive-icons
新尧网国内
新尧网官方帐号
3329文章数 10310关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

美军突袭委内瑞拉俄制防空系统失联 俄方回应

头条要闻

美军突袭委内瑞拉俄制防空系统失联 俄方回应

体育要闻

U23国足形势:末轮不负泰国即确保晋级

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

旅游
艺术
教育
公开课
军事航空

旅游要闻

山东济南趵突泉,游客100万元古钱币掉水里:水下探测器打捞上岸

艺术要闻

25位世界名人告诉你,音乐是人一生能拥有最棒的事!

教育要闻

高三学信网手机号注销?3步解决别慌!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄大使:马杜罗夫妇被控制时身边没人

无障碍浏览 进入关怀版