网易首页 > 网易号 > 正文 申请入驻

理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

0
分享至

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一手好牌打稀烂?34岁结婚6年无子女的康天庥,如今下场令人唏嘘

一手好牌打稀烂?34岁结婚6年无子女的康天庥,如今下场令人唏嘘

阿讯说天下
2025-12-29 11:29:09
山西马年反腐惊雷,四人应声落马

山西马年反腐惊雷,四人应声落马

创作者_IE2295
2026-01-11 20:19:41
纽约期金突破4530美元/盎司,日内涨0.66%

纽约期金突破4530美元/盎司,日内涨0.66%

每日经济新闻
2026-01-12 07:11:06
最新! 中国新增20.4万颗卫星申请,美国批准SpaceX新增7500颗卫星!下周商业航天还要冲?

最新! 中国新增20.4万颗卫星申请,美国批准SpaceX新增7500颗卫星!下周商业航天还要冲?

价值线传媒
2026-01-10 18:23:19
终于见识到白醋带来的“洪荒之力”,不止能做菜,妙用居然这么多

终于见识到白醋带来的“洪荒之力”,不止能做菜,妙用居然这么多

Home范
2026-01-11 13:41:45
伊朗伊斯兰革命卫队:已有数百人在近期骚乱中丧生

伊朗伊斯兰革命卫队:已有数百人在近期骚乱中丧生

环球网资讯
2026-01-12 06:36:04
邵佳一下狠手!国足一天两练,国脚们深感疲劳,有人快撑不住了

邵佳一下狠手!国足一天两练,国脚们深感疲劳,有人快撑不住了

国足风云
2026-01-12 07:49:12
全程呲大牙,舌头打结,脸肿的陈星旭也带不动,偏偏还一群人吹捧

全程呲大牙,舌头打结,脸肿的陈星旭也带不动,偏偏还一群人吹捧

一娱三分地
2026-01-10 12:45:02
2014年,北京女博士李香蓉因接受不了新郎身份,在车内将其几刀刺死

2014年,北京女博士李香蓉因接受不了新郎身份,在车内将其几刀刺死

红豆讲堂
2024-10-14 15:30:03
信心十足!广东后场核心大战前帮女友带货 球迷调侃赢球就下单

信心十足!广东后场核心大战前帮女友带货 球迷调侃赢球就下单

胖子喷球
2026-01-11 08:41:31
闫学晶慌了?圈内大佬不再沉默下场表态,冯巩态度属实令人意外

闫学晶慌了?圈内大佬不再沉默下场表态,冯巩态度属实令人意外

削桐作琴
2026-01-09 17:30:49
不理婚变传闻,74岁王石豪宅打牌,多名美女作陪,干瘦憔悴不成样

不理婚变传闻,74岁王石豪宅打牌,多名美女作陪,干瘦憔悴不成样

李健政观察
2026-01-08 11:15:34
江浙沪地区有多富裕?看湖南与浙江乡村湖南对比!

江浙沪地区有多富裕?看湖南与浙江乡村湖南对比!

谣谈乡村振兴
2026-01-11 21:54:00
2026年养老金好消息!1956年到1961年出生的人,可能调整更多吗?

2026年养老金好消息!1956年到1961年出生的人,可能调整更多吗?

社会日日鲜
2026-01-11 11:09:44
林熙蕾:因前途放弃吴大维,因婚姻放弃王晶,如今和杨晨长厢厮守

林熙蕾:因前途放弃吴大维,因婚姻放弃王晶,如今和杨晨长厢厮守

丰谭笔录
2026-01-12 07:45:06
CBA排名剧变:首钢跌出四强,深圳升至第六,山东冲第九

CBA排名剧变:首钢跌出四强,深圳升至第六,山东冲第九

许礆很机智
2026-01-12 07:05:57
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
WTT多哈冠军赛|国乒新年首站无缘冠军:女队失利是偶然,男队形势很严峻

WTT多哈冠军赛|国乒新年首站无缘冠军:女队失利是偶然,男队形势很严峻

上观新闻
2026-01-12 04:14:06
惊天逆转!“海洋传送带”崩溃倒计时开始,科学家发出冰封警告

惊天逆转!“海洋传送带”崩溃倒计时开始,科学家发出冰封警告

Science科学说
2026-01-12 08:05:03
“榛树”导弹击溃北约防御,美媒高呼航母不再安全,中国随时能打

“榛树”导弹击溃北约防御,美媒高呼航母不再安全,中国随时能打

策略述
2026-01-11 14:58:09
2026-01-12 08:36:49
新尧网国内 incentive-icons
新尧网国内
新尧网官方帐号
3329文章数 10310关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

李献林学习教育期间违规吃喝:5人喝4瓶酒 1人酒后死亡

头条要闻

李献林学习教育期间违规吃喝:5人喝4瓶酒 1人酒后死亡

体育要闻

U23国足形势:末轮不负泰国即确保晋级

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

游戏
旅游
家居
手机
公开课

这款帅到掉渣的GBA神作《洛克人ZERO》,被模仿无数次仍是巅峰

旅游要闻

生态优先,雪域高原焕发新生机(子夜走笔)

家居要闻

木色留白 演绎现代自由

手机要闻

真我 Neo8 参数曝光,骁龙 8 Gen5 、8000mAh电池

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版