网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 | 零样本计数新突破:西工大&中国电信TeleAI提出QICA

0
分享至

来源:市场资讯

(来源:OpenCV与AI深度学习)

视觉/图像重磅干货,第一时间送达!

在计算机视觉的众多任务中,“数数”看似简单,实则暗藏玄机。尤其是当我们要求模型在完全没见过某个类别、也没有任何视觉参考(Exemplar)的情况下,仅仅凭借一句“帮我数数图里有多少个草莓”就能给出准确答案时,这就是所谓的“零样本对象计数(Zero-Shot Object Counting, ZSOC)”。

近日,来自西北工业大学、中国电信人工智能研究院(TeleAI)、中国科学技术大学以及复旦大学的研究团队,针对这一领域提出了一个具启发性的新框架:QICA,是 Quantity perception with robust spatial Cast Aggregation 的缩写,意在强调其结合了“数量感知”与“鲁棒的空间代价聚合”能力。它不仅在标准的计数基准上表现出色,更在极高密度的人群计数场景中展现了良好的泛化能力。


  • 论文地址: https://arxiv.org/abs/2603.16129

  • 代码仓库: https://github.com/zhangda1018/QICA (将开源)

  • 录用会议: CVPR 2026

为什么现在的模型“数不清”?

目前的通用做法通常是利用像 CLIP 这样的预训练视觉-语言模型(Vision-Language Models, VLMs)。模型接收图像和文本,计算两者的相似度图,然后交给一个解码器去预测密度图。听起来很完美,但实际操作中存在两个“痛点”:

数量盲区(Quantity Blindness):现有的模型大多只学习了“语义对齐”,即模型知道什么是草莓,但它并不真正理解“1个草莓”和“10个草莓”在视觉特征上的细微差别。文本提示往往只包含类别名,缺乏对数量的显式监督。

特征空间扭曲(Feature Space Distortion):为了让模型学会计数,开发者通常会微调 VLM。但直接微调往往会破坏 CLIP 原有的通用特征空间,导致模型在训练集里数得很好,一遇到没见过的类别就“抓瞎”了(即过拟合)。


QICA 与标准 ZSOC 方法的对比。QICA 通过引入数值条件协同提示和代价聚合解码,解决了现有方法在数量感知和空间敏感性上的不足。

为了解决这些问题,QICA 另辟蹊径,从“感知”和“解码”两个维度进行了重构。

QICA 的核心:协同提示与代价聚合

QICA 的架构设计主要由三个核心组件构成:协同提示策略(SPS)、代价聚合解码器(CAD)以及多级数量对齐损失()。


QICA 的整体架构图。左侧 (a) 展示了 SPS 如何通过耦合函数将数量感知文本提示映射到视觉提示;右侧 (b) 展示了 CAD 如何在相似度图上进行空间聚合和上采样。

1. 协同提示策略(SPS):给模型装上“数量秤”

研究团队认为,要让模型懂数量,就得在提示(Prompt)阶段下功夫。协同提示策略(Synergistic Prompting Strategy, SPS) 不再孤立地处理视觉和文本分支。

  • 数值条件化:它首先将离散的数量值 转换为连续的嵌入向量 。在训练时,模型不仅会看到真实的数量(如“16个草莓”),还会通过一种 区间分箱策略(Interval-based binning strategy) 动态生成一些“反事实”的错误数量(如“13个”或“19个”)。

  • 双向协同:最巧妙的地方在于,这些文本提示会通过一个耦合函数(Coupling Function, )直接映射到视觉编码器的提示中。这种双向的梯度流动让视觉和语言编码器能够协同工作,共同理解“数量”这个概念。

Input/Output 流程:

  • Input:原始图像、类别文本描述、 ground-truth 数量及生成的反事实数量。

  • Output:注入了数量信息的文本嵌入 和视觉特征 。

2. 代价聚合解码器(CAD):拒绝“特征污染”

为了避免微调导致的特征扭曲,QICA 提出了 代价聚合解码器(Cost Aggregation Decoder, CAD)。不同于以往直接处理高维视觉特征的方法,CAD 直接在“视觉-文本相似度图(Similarity Map)”上操作。


CAD 流程的可视化。从原始图像到相似度图,再到空间聚合和最终融合,可以看到模型如何一步步抑制噪声并精准定位目标。

通过 Swin Transformer 块进行 空间聚合(Spatial Aggregation),模型能够利用图像的结构信息来细化这些粗糙的相似度激活。CAD 就像是一个精细的过滤器,它能够识别出相似度图中的孤立噪声并予以剔除,同时增强那些符合物体空间分布的区域。

Input/Output 流程:

  • Input:密集视觉特征 、仅含类别的文本嵌入 。

  • Output:精细化的预测密度图 。

3. 多级数量对齐损失:严苛的“排序”监督

为了确保模型真的学到了数量逻辑,团队设计了 多级数量对齐损失(Multi-level Quantity Alignment Loss, )。

在编码器级别,它引入了一个排序约束:真实数量的提示与图像的相似度必须最高,且数值越接近真实值的提示,其相似度得分也应该越高。

这种约束强迫模型在潜空间中建立起清晰的数值序关系。而在解码器级别,模型需要对每一个数量假设都预测一个密度图,并确保预测的总数与该假设的数值一致。

实验结果:全线飘红的 SOTA

研究团队在多个极具挑战性的数据集上验证了 QICA 的实力。

1. FSC-147:通用计数的标杆

在包含 147 个类别的 FSC-147 数据集上,QICA(基于 ViT-L/14)在测试集上达到了 12.41 MAE 和 97.28 RMSE。相比于之前的 CLIP-Count 等方法,性能提升了 27% 以上。即便与一些需要视觉参考(Few-shot)的方法相比,QICA 依然具竞争力。


表 1 展示了 QICA 与其他 SOTA 模型在 FSC-147 上的对比,可以看到 QICA 在零样本设置下表现优异。

2. 跨数据集泛化:CARPK 与人群计数

更令人惊喜的是 QICA 的跨领域泛化能力。在完全没见过 CARPK(停车场车辆计数)和 ShanghaiTech-A(极高密度人群计数)数据的情况下,QICA 直接进行推理:

  • 在 ShanghaiTech-A 上,QICA 达到了 140.7 MAE,刷新了开源零样本计数方法的纪录。

  • 在 CARPK 上,其表现(6.07 MAE)也显著优于 T2ICount 等扩散模型驱动的方法。


表 2 显示 QICA 在 CARPK 数据集上的泛化表现。


表 3 显示 QICA 人群计数数据集上的卓越表现,甚至超过了专门针对接地任务设计的 CountGD。

3. 深度分析:提示深度与损失权重

通过消融实验,研究团队发现 提示深度(Prompt Depth) 对性能有显著影响。在 1-9 层注入提示时效果最佳。此外,对损失权重 和 的敏感性分析显示,适度的编码器级监督对建立数量感知至关重要。


图 4 展示了提示深度和长度对性能的影响。图 5 则展示了损失权重对最终结果的敏感性。


图 5 权重敏感性分析。

4. 效率与可视化的双重胜利

在效率方面,QICA 同样表现不俗。得益于冻结编码器和轻量化提示的设计,其可训练参数量仅为 19.7M 左右,在 NVIDIA A800 GPU 上可以达到 45.2 FPS 的推理速度,非常适合实际部署。


效率分析。QICA 在参数量、计算开销和推理速度之间取得了极佳的平衡。

从可视化结果来看,QICA 生成的相似度图噪声极低,能够精准勾勒出目标的轮廓,这直接证明了 CAD 模块在空间细化方面的有效性。


可视化对比。可以看到 QICA 生成的密度图(最右列)比 VLCounter 和 T2ICount 更加干净、精准。

这项研究表明,在利用大模型处理下游任务时,单纯的语义对齐是不够的,尤其是像计数这种对数值高度敏感的任务。

通过 SPS 引入数值先验,再通过 CAD 在相似度空间进行非侵入式的微调,QICA 成功在“保持泛化性”和“提升精确度”之间找到了一个平衡点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
任嘉伦2025三部剧《无忧渡》《凤凰台上》《风与潮》能否成功

任嘉伦2025三部剧《无忧渡》《凤凰台上》《风与潮》能否成功

夏末moent
2026-01-31 20:07:01
97年和女同事出差,宾馆只剩一间房她白我一眼:你敢乱动我就报警

97年和女同事出差,宾馆只剩一间房她白我一眼:你敢乱动我就报警

千秋文化
2026-05-08 10:18:54
霸气!吴前妻子炮轰浙江:一直很Respect!少上我理解完全不上就离谱

霸气!吴前妻子炮轰浙江:一直很Respect!少上我理解完全不上就离谱

818体育
2026-05-11 22:26:13
李湘瘦成了水蛇腰,脸整整小了一圈,女儿反倒胖了一圈

李湘瘦成了水蛇腰,脸整整小了一圈,女儿反倒胖了一圈

乡野小珥
2026-05-10 13:06:04
出售公民信息千元一条,国家反诈平台成内鬼摇钱树

出售公民信息千元一条,国家反诈平台成内鬼摇钱树

高恒说
2026-05-10 16:58:40
本赛季最惨球队!3亿垃圾合同在手,想摆烂难,想冲冠更难

本赛季最惨球队!3亿垃圾合同在手,想摆烂难,想冲冠更难

球毛鬼胎
2026-05-11 18:29:36
黔江2死6伤车祸升级!女司机穿着高跟鞋及医者身份流出,引发公愤

黔江2死6伤车祸升级!女司机穿着高跟鞋及医者身份流出,引发公愤

火山詩话
2026-05-11 13:28:21
美股纳指低开0.3% 高通、英特尔、美光科技、AMD等再次刷新历史新高

美股纳指低开0.3% 高通、英特尔、美光科技、AMD等再次刷新历史新高

每日经济新闻
2026-05-11 21:41:10
女演员的长相有多重要?看《主角》中的秦海璐和王晓晨就知道了

女演员的长相有多重要?看《主角》中的秦海璐和王晓晨就知道了

翰飞观事
2026-05-11 17:00:49
李冰冰的脸骗了所有人,53岁生图揭开一个残酷真相,原来人不是变老是被榨干了

李冰冰的脸骗了所有人,53岁生图揭开一个残酷真相,原来人不是变老是被榨干了

科学发掘
2026-05-11 00:11:13
法国确诊首例汉坦病毒感染病例

法国确诊首例汉坦病毒感染病例

澎湃新闻
2026-05-11 17:46:05
一位日本老兵的自述:南京城沦陷后,城内妇女都有着怎样的遭遇

一位日本老兵的自述:南京城沦陷后,城内妇女都有着怎样的遭遇

云霄纪史观
2026-05-11 17:41:21
调查:诺伊尔问题分裂德国足坛

调查:诺伊尔问题分裂德国足坛

绿茵情报局
2026-05-11 20:48:46
美国一人汉坦病毒检测呈阳性,疫苗研发已启动,谭德塞发出警告

美国一人汉坦病毒检测呈阳性,疫苗研发已启动,谭德塞发出警告

中国网
2026-05-11 14:08:15
“你凭什么赢张国荣?”26年后,他用一句话回应,让所有人闭嘴!

“你凭什么赢张国荣?”26年后,他用一句话回应,让所有人闭嘴!

飘飘然的娱乐汇
2026-05-10 22:15:05
四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

潇湘晨报
2026-02-01 16:07:16
62年印军战斗力如何?阴法唐回忆:很多战斗,印军战死比被俘的多

62年印军战斗力如何?阴法唐回忆:很多战斗,印军战死比被俘的多

云霄纪史观
2026-03-29 16:54:22
美伊开打!48小时内,全世界见证:美国的蠢,伊朗的精,中俄的绝

美伊开打!48小时内,全世界见证:美国的蠢,伊朗的精,中俄的绝

说历史的老牢
2026-05-10 18:50:43
河南省人民检察院原巡视员刘新年被开除党籍

河南省人民检察院原巡视员刘新年被开除党籍

界面新闻
2026-05-11 16:01:30
朱可夫晚年回忆:当年德军能从莫斯科撤走,皆因斯大林的一道指令

朱可夫晚年回忆:当年德军能从莫斯科撤走,皆因斯大林的一道指令

饭小妹说历史
2026-05-11 10:25:07
2026-05-12 00:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3173470文章数 7324关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
健康
数码
家居
军事航空

教育要闻

10-4是个什么信号

干细胞能让人“返老还童”吗

数码要闻

5299元起!大疆ROMO 2系列正式发布:无人机同款避障太逆天

家居要闻

多元生活 此处无声

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版