网易首页 > 网易号 > 正文 申请入驻

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

0
分享至


新智元报道

编辑:LRST

【新智元导读】在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?有研究人员给出了一条实用且富有启发性的答案:把大型多模态模型(MLLM)放在「诊断—补弱—精细化评估」的闭环中训练,并配套一个结构化的评测基准,从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

古希腊陶器是考古学和艺术史的重要实物证据。

研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。

不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:

一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);

二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。

基于此,AI Geeks、澳大利亚人工智能研究所等机构的研究人员提出:既要有专门的数据与任务划分,也要有针对性的训练策略来补弱提升。


论文链接: https://doi.org/10.48550/arXiv.2509.17191

项目地址:https://github.com/AIGeeksGroup/VaseVQA

论文的技术主线可以用一句话概括:先把模型训练到有基础能力(SFT),再通过诊断找出各类问题的薄弱环节,用类型条件化的强化学习(RL)和精细化奖励去有针对性地补弱。

图1:现有视觉语言模型在古希腊陶瓶理解上的局限性与所提出的VaseVL框架

关键步骤如下:

  • 任务分层与问题类型化:作者把陶器理解任务划分为若干类(例如材质、工艺、形制、产地/归属、年代、装饰描述等),为后续诊断与差异化训练提供维度。

  • 诊断评估:对SFT后的模型在每一类问题上分别评测,识别哪些类型表现弱(例如归属推理与装饰描述通常比简单事实类问题更难)。

  • 类型条件化强化学习:针对弱项设计加权奖励,奖励由「关键词命中率 + 语义相似度」组成;同时采用带KL正则的策略更新手段避免模型过度偏离原有SFT行为。作者还引入一种稳定化的策略优化方法(论文提出的变体)来保证训练稳定。

  • 按类型细化评估指标:不同问题类型采用更合适的评价方式(比如对描述类用生成质量指标,对事实类用字符/关键词相似度),避免单一指标一刀切。


图2:VaseVL的整体框架。该方法将有监督微调(SFT)与基于组相对策略优化(GRPO)的强化学习相结合。给定陶瓶图像x、问题q 和参考答案a^*,模型通过在词汇奖励与语义奖励之间取得平衡,并限制策略偏离参考策略 ,从而提升其推理能力。

数据与基准(VaseVQA)

让评测更具信服力

为了能系统评估上述方法,研究人员同时构建了一个面向古希腊陶器的多模态问答基准(VaseVQA)。

该基准覆盖大量陶器图片与多类型问答对,且在标注上引入专家审校,力求兼顾规模与专业性。更重要的是,基准把任务按问题类型拆分,使得模型的薄弱处能被明确定位并针对性优化。


表1:VaseVQA基准测试上的性能比较。RL代表推理注入。

关键发现与实证价值

论文的实验显示:

仅做SFT能显著提升模型的基础识别能力,但在归属推理和复杂描述上仍有限;

在诊断基础上做类型条件化RL优化后,模型在那些先前薄弱的类型上有可观提升——这说明「补弱导向」的训练策略在专业垂直任务上很有效;

细粒度的评价(按问题类型)对于判断模型真实能力与设计针对性改进尤为重要。


表2:消融实验结果说明。RI表示Reasoning Injection(推理注入)Qwen2.5-VL-SFT表示前述模型经过有监督微调(SFT)的版本,而最后一行展示的是提出的VaseVL 模型的性能表现。

意义、局限与可推广方向

这项工作最有价值的,不只是把一个模型调好,而是提出了一套「如何让通用多模态模型在高度专业领域变得可靠」的方法论:任务分层 → 定位薄弱 → 有针对性地微调与评估。

它对文化遗产、医学影像、材料科学等其他垂直领域都有启发意义。

但需谨慎的一点是:强化学习阶段高度依赖奖励设计,若奖励不当或数据偏倚,模型可能学习到新的偏差。

此外,许多考古归属问题本身具有主观性与学术争议,模型输出仍需专家把关作为辅助工具而非最终裁决。

VaseVQA展示了把「领域诊断」嵌入多模态训练流程的可行路径。

文化遗产与AI的结合,不应仅止于表层识别,而应追求「可解释、可校验、有专家协同」的工具化落地。

未来,当这类方法被更广泛采纳,不同学科的专家与工程师协作,就能把AI打造成真正有助于保护与理解人类文化记忆的可靠伙伴。

参考资料:

https://doi.org/10.48550/arXiv.2509.17191

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒:三大情报机构集体失语失能,中国打出了美军最怕的一张牌

美媒:三大情报机构集体失语失能,中国打出了美军最怕的一张牌

音乐时光的娱乐
2025-11-10 13:00:07
2-1!日本爆大冷:掀翻欧洲冠军+7分夺小组头名,世少赛20队出线

2-1!日本爆大冷:掀翻欧洲冠军+7分夺小组头名,世少赛20队出线

侃球熊弟
2025-11-10 03:37:42
广西最新人事信息发布!11人职务有调整

广西最新人事信息发布!11人职务有调整

鲁中晨报
2025-11-10 11:55:09
好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

蛙蛙和洼
2025-11-08 10:01:55
媒体更新NBA杯冠军赔率:雷霆独一档领跑,湖人压勇士进前三

媒体更新NBA杯冠军赔率:雷霆独一档领跑,湖人压勇士进前三

谢说篮球
2025-11-10 16:46:04
美媒承认:乌重镇即将被攻克

美媒承认:乌重镇即将被攻克

环球时报国际
2025-11-10 00:13:34
35天减28斤!25岁女孩海岛求生赛吃老鼠、蜈蚣,将报名张家界荒野求生赛

35天减28斤!25岁女孩海岛求生赛吃老鼠、蜈蚣,将报名张家界荒野求生赛

潇湘晨报
2025-11-09 23:20:12
与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

公子麦少
2025-11-07 20:43:25
9位大法官集体反对,瞒不下去了?特朗普承认关税不是由中国承担

9位大法官集体反对,瞒不下去了?特朗普承认关税不是由中国承担

三石记
2025-11-10 15:13:10
黄贻瑞,为恶势力充当“保护伞”

黄贻瑞,为恶势力充当“保护伞”

都市快报橙柿互动
2025-11-10 00:02:29
20周年iPhone将消灭灵动岛:首款真全面屏苹果手机

20周年iPhone将消灭灵动岛:首款真全面屏苹果手机

快科技
2025-11-08 21:26:06
“没症状”更危险!上海专家:有人30多岁就中招,40岁以上有1/3概率

“没症状”更危险!上海专家:有人30多岁就中招,40岁以上有1/3概率

新民晚报
2025-11-10 12:19:44
曾医生的丈夫被网友扒出后,更加证明了她的“不简单”!

曾医生的丈夫被网友扒出后,更加证明了她的“不简单”!

诗意世界
2025-11-09 13:19:18
古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

蜉蝣说
2025-09-29 16:49:48
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

辉辉历史记
2025-11-05 08:51:15
被米粉追着要的小米NAS要来了!爆12月与小米17 Ultra一起发布

被米粉追着要的小米NAS要来了!爆12月与小米17 Ultra一起发布

热点科技
2025-11-10 15:35:57
14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

娱乐督察中
2025-10-30 10:33:53
副院长视频后续:眼科女主任很爱干净,沙发上铺了两张无菌床单

副院长视频后续:眼科女主任很爱干净,沙发上铺了两张无菌床单

鋭娱之乐
2025-11-07 15:50:06
有钱也没用!这次,担任全运会火炬手的霍震霆,给李嘉诚上了一课

有钱也没用!这次,担任全运会火炬手的霍震霆,给李嘉诚上了一课

做一个合格的吃瓜群众
2025-11-10 15:44:05
2025-11-10 17:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13833文章数 66241关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

幼儿园园长被指贪污1079万:承包幼儿园 没有非法占有

头条要闻

幼儿园园长被指贪污1079万:承包幼儿园 没有非法占有

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

郝蕾风波升级?

财经要闻

俄罗斯大幅加税 中国汽车出口骤降58%

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

数码
本地
教育
艺术
公开课

数码要闻

投影仪 + 氛围灯 + 蓝牙音箱,LG 推出三合一设备 MoodMate

本地新闻

这届干饭人,已经把博物馆吃成了食堂

教育要闻

山东省青岛第二卫生学校组织学生会干部开展红色研学与能力培训活动

艺术要闻

“隶书之冠”刘炳森:楷书艺术之美惊艳四座

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版