网易首页 > 网易号 > 正文 申请入驻

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

0
分享至

新智元报道

编辑:LRST

【新智元导读】在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?有研究人员给出了一条实用且富有启发性的答案:把大型多模态模型(MLLM)放在「诊断—补弱—精细化评估」的闭环中训练,并配套一个结构化的评测基准,从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

古希腊陶器是考古学和艺术史的重要实物证据。

研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。

不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:

一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);

二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。

基于此,AI Geeks、澳大利亚人工智能研究所等机构的研究人员提出:既要有专门的数据与任务划分,也要有针对性的训练策略来补弱提升。

论文链接: https://doi.org/10.48550/arXiv.2509.17191

项目地址:https://github.com/AIGeeksGroup/VaseVQA

论文的技术主线可以用一句话概括:先把模型训练到有基础能力(SFT),再通过诊断找出各类问题的薄弱环节,用类型条件化的强化学习(RL)和精细化奖励去有针对性地补弱。

图1:现有视觉语言模型在古希腊陶瓶理解上的局限性与所提出的VaseVL框架

关键步骤如下:

  • 任务分层与问题类型化:作者把陶器理解任务划分为若干类(例如材质、工艺、形制、产地/归属、年代、装饰描述等),为后续诊断与差异化训练提供维度。

  • 诊断评估:对SFT后的模型在每一类问题上分别评测,识别哪些类型表现弱(例如归属推理与装饰描述通常比简单事实类问题更难)。

  • 类型条件化强化学习:针对弱项设计加权奖励,奖励由「关键词命中率 + 语义相似度」组成;同时采用带KL正则的策略更新手段避免模型过度偏离原有SFT行为。作者还引入一种稳定化的策略优化方法(论文提出的变体)来保证训练稳定。

  • 按类型细化评估指标:不同问题类型采用更合适的评价方式(比如对描述类用生成质量指标,对事实类用字符/关键词相似度),避免单一指标一刀切。

图2:VaseVL的整体框架。该方法将有监督微调(SFT)与基于组相对策略优化(GRPO)的强化学习相结合。给定陶瓶图像x、问题q 和参考答案a^*,模型通过在词汇奖励与语义奖励之间取得平衡,并限制策略偏离参考策略 ,从而提升其推理能力。

数据与基准(VaseVQA)

让评测更具信服力

为了能系统评估上述方法,研究人员同时构建了一个面向古希腊陶器的多模态问答基准(VaseVQA)。

该基准覆盖大量陶器图片与多类型问答对,且在标注上引入专家审校,力求兼顾规模与专业性。更重要的是,基准把任务按问题类型拆分,使得模型的薄弱处能被明确定位并针对性优化。

表1:VaseVQA基准测试上的性能比较。RL代表推理注入。

关键发现与实证价值

论文的实验显示:

仅做SFT能显著提升模型的基础识别能力,但在归属推理和复杂描述上仍有限;

在诊断基础上做类型条件化RL优化后,模型在那些先前薄弱的类型上有可观提升——这说明「补弱导向」的训练策略在专业垂直任务上很有效;

细粒度的评价(按问题类型)对于判断模型真实能力与设计针对性改进尤为重要。

表2:消融实验结果说明。RI表示Reasoning Injection(推理注入)Qwen2.5-VL-SFT表示前述模型经过有监督微调(SFT)的版本,而最后一行展示的是提出的VaseVL 模型的性能表现。

意义、局限与可推广方向

这项工作最有价值的,不只是把一个模型调好,而是提出了一套「如何让通用多模态模型在高度专业领域变得可靠」的方法论:任务分层 → 定位薄弱 → 有针对性地微调与评估。

它对文化遗产、医学影像、材料科学等其他垂直领域都有启发意义。

但需谨慎的一点是:强化学习阶段高度依赖奖励设计,若奖励不当或数据偏倚,模型可能学习到新的偏差。

此外,许多考古归属问题本身具有主观性与学术争议,模型输出仍需专家把关作为辅助工具而非最终裁决。

VaseVQA展示了把「领域诊断」嵌入多模态训练流程的可行路径。

文化遗产与AI的结合,不应仅止于表层识别,而应追求「可解释、可校验、有专家协同」的工具化落地。

未来,当这类方法被更广泛采纳,不同学科的专家与工程师协作,就能把AI打造成真正有助于保护与理解人类文化记忆的可靠伙伴。

参考资料:

https://doi.org/10.48550/arXiv.2509.17191

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米自研的3nm芯片,已出货超100万颗了,为何至今没被美国制裁?

小米自研的3nm芯片,已出货超100万颗了,为何至今没被美国制裁?

王新喜
2026-04-29 13:54:19
又起风了,中方接到东京消息,钓鱼岛冲突再起,055大驱开始绕后

又起风了,中方接到东京消息,钓鱼岛冲突再起,055大驱开始绕后

闻识
2026-04-29 18:32:21
为何超市月薪3000元,却没人肯辞职?超市员工:“傻子”才辞职

为何超市月薪3000元,却没人肯辞职?超市员工:“傻子”才辞职

猫叔东山再起
2026-04-29 10:20:07
当众炮轰!米莱痛批欧洲:快被移民“吃空”,这烂摊子谁也救不了

当众炮轰!米莱痛批欧洲:快被移民“吃空”,这烂摊子谁也救不了

无月可归辛
2026-04-29 12:26:24
这是迄今为止,我见过身材最美的女人之一,不接受反驳

这是迄今为止,我见过身材最美的女人之一,不接受反驳

小椰的奶奶
2026-04-11 12:33:07
4月29日俄乌最新:普京的有趣回应

4月29日俄乌最新:普京的有趣回应

西楼饮月
2026-04-29 18:22:13
别再信什么和平分手了,当年田雨给汤唯最后通牒,上比电影还狠

别再信什么和平分手了,当年田雨给汤唯最后通牒,上比电影还狠

小鲸叫我照顾海
2026-04-30 01:58:16
两个事实证明,我国实际已经控制了面积80平方公里的南沙五方礁

两个事实证明,我国实际已经控制了面积80平方公里的南沙五方礁

老谢谈史
2026-04-10 17:30:50
曝网红“猴哥”新恋情!轻抚对方背部,颜值身材不输前妻何钰欣

曝网红“猴哥”新恋情!轻抚对方背部,颜值身材不输前妻何钰欣

时间巡查
2026-04-28 23:59:09
力量训练护骨:被低估的骨骼投资

力量训练护骨:被低估的骨骼投资

心事寄山海
2026-04-29 00:41:47
美国政坛要出大事了:万斯大概率要当选总统。

美国政坛要出大事了:万斯大概率要当选总统。

阿振观点
2026-04-21 05:22:52
国民党中常会,爆发重大事件,韩国瑜被指“卖党求荣”,不一般

国民党中常会,爆发重大事件,韩国瑜被指“卖党求荣”,不一般

娱乐的宅急便
2026-04-29 16:49:48
马頔一句玩笑话,孙杨妈妈怒骂节目组2小时,全网围观"妈宝男"

马頔一句玩笑话,孙杨妈妈怒骂节目组2小时,全网围观"妈宝男"

乌娱子酱
2026-04-29 13:30:44
阿联酋退出欧佩克,伊朗封锁海峡竹篮打水一场空

阿联酋退出欧佩克,伊朗封锁海峡竹篮打水一场空

名人苟或
2026-04-29 13:08:16
遭季麟连呛开除党籍,韩国瑜42字回应,郑丽文表态,赵少康不装了

遭季麟连呛开除党籍,韩国瑜42字回应,郑丽文表态,赵少康不装了

共工之锚
2026-04-30 00:23:40
新华社:阿联酋为什么退出欧佩克及“欧佩克+”

新华社:阿联酋为什么退出欧佩克及“欧佩克+”

澎湃新闻
2026-04-29 00:56:05
男子曝入职全球顶尖科技公司时突然被降薪20万,拒offer后被嘲讽:你的爱国情怀不值20万吗

男子曝入职全球顶尖科技公司时突然被降薪20万,拒offer后被嘲讽:你的爱国情怀不值20万吗

爆角追踪
2026-04-27 14:54:06
农业农村部两年两次“换帅”,官网“部领导”生变

农业农村部两年两次“换帅”,官网“部领导”生变

深度财线
2026-04-29 15:03:42
2026斯诺克世锦赛再起争议!罗伯逊公开呼吁禁用奥沙利文专属巧粉

2026斯诺克世锦赛再起争议!罗伯逊公开呼吁禁用奥沙利文专属巧粉

冷桂零落
2026-04-29 18:36:43
中美关系的反转正在发生:美国对华鹰派开始睁眼看中国

中美关系的反转正在发生:美国对华鹰派开始睁眼看中国

世界背后的秘密
2026-04-29 21:24:27
2026-04-30 02:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15095文章数 66819关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

教育
房产
亲子
游戏
军事航空

教育要闻

高考地理中的艺术治疗

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

亲子要闻

近年来屡上“黑榜”,十月结晶再因婴幼儿背带pH值不合格被通报

平等曹飞所有老玩家的危机合约,为何是二游高难玩法最高的山?

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版