网易首页 > 网易号 > 正文 申请入驻

AI4S新突破!许闲教授团队论文被人工智能国际顶会ICCV 2025录用

0
分享至

从车辆损伤图像识别到病历文本语义理解,从农田受灾的卫星遥感数据到财产险中房屋结构的视频分析,金融保险行业所面临的数据处理任务早已不仅仅局限于文本,这些任务横跨图像、文本、视频等多种模态,对信息的综合理解与推理能力提出极高要求。多模态人工智能大语言模型凭借强大的跨模态理解与逻辑推理能力为破解这些难题带来曙光。但是,一个关键问题始终悬而未决:如何系统性评估这些模型在保险场景下的真实能力?它们究竟能在多大程度上解决行业特有的多模态任务?

为此,复旦大学许闲教授团队携手美国罗切斯特大学合作者提出了全球首个面向保险行业的多模态模型评估基准INS‑MMBench,在科学智能(AI for Science,简称AI4S)领域取得新突破。研究团队系统梳理保险价值链上的多模态任务,构建分层任务体系与评测数据集,并对 GPT‑4o、Qwen‑VL、Gemini 等国内外主流多模态大模型进行了评估测试,使得行业迎来了第一套可量化、可复现的多模态模型评测框架,让多模态 AI 在保险核心业务中的真实能力与应用潜力得以清晰锚定。该研究近日被人工智能与计算机视觉领域国际顶级会议ICCV 2025录用。


作者简介

林陈威(Chenwei Lin),复旦大学大数据研究院博士研究生,复旦大学经济学院2021级保险专业硕士毕业生

闾涵加(Hanjia Lyu),美国罗切斯特大学博士研究生,复旦大学经济学院2013级保险学本科毕业生

许闲(Xian Xu),复旦大学经济学院教授,复旦发展研究院中国保险与社会安全研究中心主任

罗杰波(Jiebo Luo),美国罗切斯特大学计算机科学系教授

论文链接:

https://arxiv.org/pdf/2406.09105

项目地址:

https://github.com/FDU-INS/INS-MMBench

数据仓库:

https://huggingface.co/datasets/FDU-INS/INS-MMBench

INS-MMBench:

多层级多模态保险任务体系

研究团队从保险价值链出发,以“自下而上” 的层级设计,构建覆盖汽车、财产、健康、农业四大类保险,涵盖从基础能力到实战应用的完整评估体系。



INS-MMBench任务体系图

INS-MMBench涵盖三类任务:

基础任务(22项):聚焦单个视觉元素的识别能力,例如"识别车辆外观"、" 判断屋顶是否有裂缝"、"读取血压计数值"。这些任务是保险业务的"基本功",考验多模态大模型对关键视觉信息的识别与理解能力。

元任务(12项):整合多个基础任务的"综合理解题",例如"从图像中识别车辆外观、损伤部位、受损程度等要素并综合评估"。这类任务模拟保险流程中"信息整合" 的环节,考验多模态大模型对视觉要素的跨信息关联能力。

场景任务(5项):还原真实保险场景的"实战应用题",例如"从事故现场照片、车辆受损情况到责任判定的全流程推理"。这类任务涉及多步决策,直接对应核保、理赔等核心业务场景,直接反映多模态大模型在保险业务中的表现。

整个基准包含 12052 张图像和 10372 个问题,所有数据经保险专家严格校准,确保与真实业务高度贴合。

大模型实测:

揭示保险场景多模态应用的 “短板与潜力”

研究团队选取了11个主流多模态大模型(包括 GPT-4o、Gemini 1.5、GLM4V等闭源模型,以及QwenVL 2.5 32B等开源模型)进行测评,揭示了当前多模态大模型在保险领域的“能力画像”:




保险多模态任务充满挑战GPT-4o虽以69.70综合得分领先,但模型整体在保险专业领域表现平平,在部分任务中未达人类专家水准。这凸显了保险行业知识密集、场景复杂的特点,即便先进模型也无法完全胜任。

领域适配存在明显差异:模型在汽车保险(如车辆外观识别)和健康保险(如医疗影像识别)中表现较好,但在财产保险(如房屋损伤类型判断)和农业保险(如作物生长识别)中得分较低,提示行业落地可采取 "先易后难" 的阶段性策略。

复杂场景推理短板显著真实业务场景测试中,模型集体表现不佳,这些任务需要从多模态信息中抽取关键要素,进行多步逻辑推导,但现有模型常在关键推理节点"断链",成为深度应用的主要障碍。

开源模型潜力凸显:开源模型表现超预期,国产开源模型Qwen-2.5-VL-32B在医疗影像检测、车辆损伤识别等任务中准确率接近甚至超越部分闭源模型。这为保险企业在平衡成本、数据安全与性能时提供了新选择,开源方案有望成为兼具性价比和灵活性的重要选项。

行业建议:

“量体裁衣”,分阶段推进模型落地

基于上述发现,为助力保险行业更好地应用多模态大模型,提出如下落地建议:

循序渐进,优先攻克优势领域鉴于模型在汽车险和健康险部分任务中的良好表现,行业可采取“先易后难”策略。初期聚焦于这些优势领域的基础任务,如车险的简单定损、健康险常规疾病风险评估等,快速实现模型的初步落地应用,积累经验与数据。

构建专家推理思维链,强化模型推理能力:针对模型在多步推理中的薄弱环节,需系统梳理保险专家的决策思维路径,将复杂推理过程分解为可学习的思维链条。通过专项训练让模型掌握专家级推理逻辑,配合人工审核关键决策节点,形成"AI推理+专家校准"的协同模式,逐步适应复杂业务场景需求。

关注开源,挖掘定制化潜力开源模型在特定任务中的出色表现,为保险企业提供了新机遇。企业可结合自身数据安全需求与成本考量,深入探索开源模型的定制化路径。通过技术优化,挖掘其在保险领域的独特价值,打造贴合自身业务的专属模型解决方案。

复旦大学在近年来系统布局科学智能(AI for Science,简称AI4S)与人文社会科学智能(AI for Social Sciences and Humanities,简称AI4SSH),致力于推动包含人文社会科学在内的学科同人工智能的深度融合与研究范式变革。这一成果是经济学院和许闲教授研究团队聚焦AI4S、AI4SSH方向取得的跨学科研究新进展。未来,研究者将更进一步着眼AI4S驱动下的研究范式与研究内容变革,秉承科技向善理念,让智能技术真正服务于社会应用实践与价值创造,为经济社会的智能化转型与发展贡献更多高质量研究成果。

附注:ICCV简介

国际计算机视觉大会(ICCV,International Conference on Computer Vision)是人工智能与计算机视觉领域最具影响力的顶级学术会议之一,每两年举办一次,与CVPR(Conference on Computer Vision and Pattern Recognition)、ECCV(European Conference on Computer Vision)并称为计算机视觉领域的三大顶会。由电气电子工程师学会(IEEE,Institute of Electrical and Electronics Engineers)与计算机视觉基金会(CVF,Computer Vision Foundation)共同主办,ICCV 汇聚了全球顶尖的计算机视觉专家,聚焦前沿视觉理论与技术突破。ICCV 2025将于2025年10月19日在美国夏威夷檀香山召开。

来源 | 复旦大学经济学院

‍‍

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

篮球大视野
2025-11-18 15:32:31
受贿数额特别巨大,蛇年首“虎”被公诉!曾任市委书记、副省长

受贿数额特别巨大,蛇年首“虎”被公诉!曾任市委书记、副省长

上观新闻
2025-11-18 10:58:07
一夜损失40000亿美元背后,这位18岁中国少年轰动世界!

一夜损失40000亿美元背后,这位18岁中国少年轰动世界!

阿燕姐说育儿
2025-11-15 06:36:19
大批国人继续赴日旅游,记者采访令人破防

大批国人继续赴日旅游,记者采访令人破防

热点菌本君
2025-11-18 14:20:27
18号收评:日经股指跌超3%!所有人都注意,大盘后市开始这样看

18号收评:日经股指跌超3%!所有人都注意,大盘后市开始这样看

春江财富
2025-11-18 15:23:27
刚刚!金价,大逆转!美联储,降息大消息!

刚刚!金价,大逆转!美联储,降息大消息!

中国基金报
2025-11-18 19:19:10
初婚人口跌破1000万

初婚人口跌破1000万

谭谈投研
2025-11-17 12:17:54
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
恶劣!汪士钦拉倒对手后再猛推一把+被红牌罚下 6天2次成为罪人

恶劣!汪士钦拉倒对手后再猛推一把+被红牌罚下 6天2次成为罪人

风过乡
2025-11-18 21:42:02
陈婉婷:家门口拿全运金牌意义大,内地女性退役不执教很可惜

陈婉婷:家门口拿全运金牌意义大,内地女性退役不执教很可惜

懂球帝
2025-11-18 15:51:12
当年为何要炸掉西湖边的秋瑾墓?

当年为何要炸掉西湖边的秋瑾墓?

娱乐喵喵说
2025-11-16 09:27:37
宋凯邵佳一观战黑脸!22岁美甲国脚3场3次送礼 名记:中超禁赛5场

宋凯邵佳一观战黑脸!22岁美甲国脚3场3次送礼 名记:中超禁赛5场

我爱英超
2025-11-18 22:06:39
越神秘越可怕?美媒:迟迟不亮相的轰-20,让美军觉得是在憋大招

越神秘越可怕?美媒:迟迟不亮相的轰-20,让美军觉得是在憋大招

墨羽怪谈
2025-11-17 20:32:07
高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

卷史
2025-11-17 17:08:23
俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

我心纵横天地间
2025-11-18 20:07:05
宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

娱乐圈笔娱君
2025-11-18 14:22:40
86年立功被提拔,师长介绍他女儿给我,谁知刚见面就扇了我一巴掌

86年立功被提拔,师长介绍他女儿给我,谁知刚见面就扇了我一巴掌

卡西莫多的故事
2025-10-29 10:39:30
2025年,倒闭的店铺越来越多,很多人都快撑不住了

2025年,倒闭的店铺越来越多,很多人都快撑不住了

深蓝夜读
2025-11-16 18:26:32
俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

环球网资讯
2025-11-18 15:40:51
场均14+11!杨瀚森重返巅峰,开拓者官宣决定,争取轮换地位

场均14+11!杨瀚森重返巅峰,开拓者官宣决定,争取轮换地位

阿泰希特
2025-11-18 09:36:32
2025-11-18 23:04:49
复旦发展研究院 incentive-icons
复旦发展研究院
高端高校智库
3530文章数 1720关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

荒野求生成流量风口:有女子辞职参赛结果烫伤花光积蓄

头条要闻

荒野求生成流量风口:有女子辞职参赛结果烫伤花光积蓄

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

亲子
时尚
家居
数码
健康

亲子要闻

添孙子祝福语

秋天穿衣暂时没灵感?赶紧看看这27套穿搭,舒适自然又大方

家居要闻

彰显奢华 意式经典风格

数码要闻

M1芯片问世五周年,苹果高管直言:Mac从未如此出色!

警惕超声报告这六大"坑"

无障碍浏览 进入关怀版