网易首页 > 网易号 > 正文 申请入驻

哈工大、度小满开源EFFIVLM-BENCH基准测试框架

0
分享至

在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力,其部署却长期受限于显著的算力瓶颈 —— 大小中等的模型一次多图推理可能需要 100 G 的显存空间,严重制约产业落地。

针对这一技术痛点,哈工大团队联合度小满金融科技正式发布 EFFIVLM-BENCH,业界首个支持跨场景统一评估的多模态大模型高效化基准框架,为学术界提供可复现的压缩方案对比基准,同时赋能工业界实现最优部署策略遴选。该项目框架已在 GitHub 全面开源, 对应论文《EFFIVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Visual-Language Models》被 ACL(CCF-A)录用为主会论文。

  • 论文地址:https://arxiv.org/pdf/2506.00479
  • 项目地址:https://effivlm-bench.github.io/

EFFIVLM-BENCH:

为LVLM高效化方案提供全面、系统的“体检报告”

在 LVLM 的研究和应用中,不同的方法常常应用于不同的模型上,另一方面,即使最新的研究为能够公平比较仍应用于较为古早的模型上。如何在最先进的模型上公平有效地评估和比较各种加速方法的性能,一直是一个亟待解决的问题。EFFIVLM-BENCH 的出现,正是为了填补这一空白。该平台的核心价值在于其先进性、全面性和系统性。

EFFIVLM-BENCH 提供了一个统一的评估框架,对主流的加速技术进行细致的性能剖析,包括 kv cache 压缩、token 压缩和参数压缩(如剪枝、量化),共计近 20 种模型高效化方法。在评测上,它不仅关注模型在特定任务上的绝对性能,更创新性地引入了泛化能力、忠诚度(即压缩后模型与原始模型行为的一致性)以及实际推理效率(如真实推理时间)等多维度评估指标。这意味着,EFFIVLM-BENCH 能够为不同的加速方法出具一份详尽的 “体检报告”,揭示其在不同场景下的优势与不足。

EFFIVLM-BENCH 的评估范围广泛,涵盖了多种前沿的 LVLM 架构(如 LLaVA-OneVision, Qwen2-VL, InternVL2.5)、模型高效化方法以及近 20 个不同类型的多模态基准任务,从文档图像理解、图表问答到长文本视频理解等,力求模拟真实应用场景的复杂性。通过对这些场景的深入分析,EFFIVLM-BENCH 旨在帮助研究者和开发者找到性能与效率之间的最佳平衡点,即所谓的 “帕累托最优” 解。

图 2 不同模型在多个 Benchmarks 上的输入输出长度

EFFIVLM-BENCH 的深度洞察:

加速 LVLM 并非 “一刀切”

通过 EFFIVLM-BENCH 的广泛实验与深度分析,哈工大团队联合度小满获得了一系列关于 LVLM 加速的重要发现。研究表明,LVLM 的加速并非简单的 “一刀切” 方案,其效果与具体应用场景和所采用的技术策略紧密相关。例如,任务依赖性显著,token 压缩方法在处理不同类型的任务时表现各异,尤其对于需要精细视觉信息或生成长序列输出的任务,其性能可能会受到较大影响。在保持模型泛化能力和忠诚度方面,KV 缓存压缩技术通常展现出更佳的优势。

同时,效率权衡也是一门艺术,不同的加速策略在 “首 token 生成时间”(TTFT)和后续解码速度上各有侧重,开发者需要根据实际应用需求进行选择,例如 token 压缩可能更适合需要快速响应的短文本任务。此外,参数压缩的稳健性也值得关注,像量化这样的技术在保持模型原始性能方面往往更为可靠。更进一步,该研究还深入探讨了层自适应稀疏性、注意力汇聚点(Attention Sink)在 LVLM 中的关键作用,以及模态特定的信息合并策略等前沿机制,这些探索为未来的 LVLM 优化指明了新的方向。这些发现共同揭示了 LVLM 加速的复杂性和多面性,强调了针对性优化和综合评估的重要性。

图 3 针对 Token 压缩方法在效率与性能之间的权衡关系

开源共建,推动 LVLM 技术发展

EFFIVLM-BENCH 的推出,标志着 LVLM 效率评估领域的一个重要进展。哈工大团队与度小满表示,EFFIVLM-BENCH 将秉承开放共享的原则,其完整的代码和评估方案已在 GitHub 上开源,希望能为研究者和开发者提供一个强大而易用的评估工具。

通过 EFFIVLM-BENCH,团队期望能够激发更多关于 LVLM 加速技术的创新研究,推动相关技术的快速迭代和优化,最终使得强大的大型视觉语言模型能够以更低的成本、更高的效率服务于更广泛的应用场景。

随着人工智能技术的不断深化,LVLM 等先进技术必将在各行各业发挥越来越重要的作用。此次哈工大团队联合度小满推出 EFFIVLM-BENCH,是双方在大模型领域合作的又一重要成果。未来,双方将继续深化合作,探索更多前沿技术,为推动人工智能技术的发展和应用贡献力量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
机构改革!不保留退役军人事务局,成立新的民政和退役军人事务局

机构改革!不保留退役军人事务局,成立新的民政和退役军人事务局

墨兰史书
2026-01-05 16:40:03
2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

别人都叫我阿腈
2026-02-13 18:05:57
天意让你看到了此文,说明你全家是好命家庭!

天意让你看到了此文,说明你全家是好命家庭!

风起见你
2026-02-24 17:59:39
巴拿马赶在仲裁前动手,中国四大反制措施还要加强

巴拿马赶在仲裁前动手,中国四大反制措施还要加强

爱下厨的阿酾
2026-02-25 08:27:04
彻底撕破脸,巴拿马强闯港口办公区,驱逐中企员工,一点后路不留

彻底撕破脸,巴拿马强闯港口办公区,驱逐中企员工,一点后路不留

石江月
2026-02-24 17:14:46
11岁男童在福建一服务区被撞身亡,1个月前刚过生日,家属:最大的诉求就是查出真相,快速惩处

11岁男童在福建一服务区被撞身亡,1个月前刚过生日,家属:最大的诉求就是查出真相,快速惩处

大象新闻
2026-02-24 22:44:03
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

健康之光
2026-02-09 14:28:50
我年终奖48万,给公婆转了38万,老公来电:爸妈买的保时捷在楼下了

我年终奖48万,给公婆转了38万,老公来电:爸妈买的保时捷在楼下了

程哥讲堂
2026-01-27 16:21:26
尼格买提晒家宴,八个菜没一个青菜?网友调侃:碳水盛宴

尼格买提晒家宴,八个菜没一个青菜?网友调侃:碳水盛宴

爱吃冰棍的小痞子
2026-02-24 12:15:26
危险信号!赖清德大胜,绿营变天,郑丽文突然改口:支持对美军购

危险信号!赖清德大胜,绿营变天,郑丽文突然改口:支持对美军购

娱乐的宅急便
2026-02-24 16:22:15
28岁乌克兰世界踢拳冠军牺牲前线:从拳台王者到卫国战士

28岁乌克兰世界踢拳冠军牺牲前线:从拳台王者到卫国战士

老马拉车莫少装
2026-02-18 00:36:06
巴拿马正式接管港口李嘉诚求援;洪都拉斯威胁断交中方置之不理

巴拿马正式接管港口李嘉诚求援;洪都拉斯威胁断交中方置之不理

跟着老李看世界
2026-02-24 11:34:20
看新闻涨知识,原来“游客”是看祖籍的

看新闻涨知识,原来“游客”是看祖籍的

李老逵乱摆龙门阵
2026-02-25 09:13:18
谷爱凌回应是否代表美国:我更愿意打造属于自己的舞台

谷爱凌回应是否代表美国:我更愿意打造属于自己的舞台

科学发掘
2026-02-24 20:01:55
被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

史海孤雁
2026-02-14 18:06:18
男子误喝过期牛奶后7个月暴瘦53斤,接连出现腹胀、腹痛和持续便秘,医生称:过期牛奶中的细菌导致男子结肠动力丧失

男子误喝过期牛奶后7个月暴瘦53斤,接连出现腹胀、腹痛和持续便秘,医生称:过期牛奶中的细菌导致男子结肠动力丧失

观威海
2026-02-24 16:34:07
做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

她时尚丫
2026-02-17 21:56:13
那份骗了12年的垃圾食品名单,终于该还你一个真相了

那份骗了12年的垃圾食品名单,终于该还你一个真相了

富贵说
2026-02-24 13:45:38
在岸、离岸人民币对美元汇率再创阶段新高;2月LPR报价继续持平 | 金融早参

在岸、离岸人民币对美元汇率再创阶段新高;2月LPR报价继续持平 | 金融早参

每日经济新闻
2026-02-25 07:13:11
美媒评26年自由市场10大控卫!火箭队范乔丹屈居第5 哈登意外落选

美媒评26年自由市场10大控卫!火箭队范乔丹屈居第5 哈登意外落选

锅子篮球
2026-02-24 22:10:05
2026-02-25 10:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

游戏
时尚
本地
健康
公开课

《彩虹六号》手游版正式运营开启 5V5攻防战术FPS

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版