网易首页 > 网易号 > 正文 申请入驻

一张图实现街道级定位,端到端图像地理定位大模型登ECCV2024

0
分享至

  • AddressCLIP项目组 投稿
    量子位 | 公众号 QbitAI

拔草星人的好消息来啦!

中科院自动化所和阿里云一起推出了街景定位大模型,只要一张照片就能实现街道级精度的定位。

有了模型的帮助,再也不用害怕遇到种草“谜语人”了。

比如给模型看一张旧金山的街景之后,它直接给出了具体的拍摄位置,并列举了附近的多个候选地址。

该模型名为AddressCLIP,基于CLIP构建。

相关论文AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization已入选顶会ECCV2024。

传统的图像位置识别往往致力于以图像检索的方式来确定图像的GPS坐标,这种方法称为图像地理定位。

但GPS对于普通人来说晦涩难懂,并且图像检索需要建立并维护一个庞大的数据库,难以本地化部署。

本篇工作提出了更加用户友好的,端到端的图像地理定位任务。二者的对比示意图如下:

针对这个任务,为了实现上述效果,研究人员主要从数据集构建与定制化的模型训练两方面入手开展了研究。

图像地址定位数据集构建

图像地址定位本质上是需要将街景图像与地址文本进行图文模态的对齐,因此首先需要收集大量的图像-地址对。

考虑到现有的用于多模态训练的图文数据中包含地址信息的数据比例过于稀少,研究人员选择基于图像地理定位中的图像-GPS数据对进行数据集的构造。

具体来说,通过使用地图中的Reverse Geocoding API,可以对一个GPS查询到一系列的相近的地址。

接着,通过筛选、投票等数据清洗机制,可以过滤得到每个图像的街道级地址文本。

这一过程如下图所示:

然而,考虑到街道本身的长短分布差异巨大,导致这个分布极度不均衡,同时街道级别的定位精度仍然过于粗糙。

因此,研究人员模仿人类描述位置的习惯,对于街道级别的地址进行了进一步的语义地址划分。

该过程通过使用道路交叉的十字路口等信息来对地址信息进行加强,其具体过程以及最终形成的地址文本描述如下:

最终,论文构造了位于两个城市,三种不同尺度的数据集,相关数据信息如下:

AddressCLIP具体实现

有了上述街景-地址文本的数据准备之后,似乎直接模仿CLIP的方式进行对比学习的微调即可。

但考虑到本任务的图像-文本数据对的语义关联十分微弱,这和CLIP预训练的数据存在着比较大的差异。

因此研究人员首先从数据和损失函数层面进行了对CLIP原始的训练框架进行了改进。

具体来说,借助以BLIP为代表的多模态生成模型的图像标注能力,研究人员对于训练数据中每个街景图像进行了语义文本的自动化标注。

然后,作者将语义文本与地址文本按照一定规则直接进行拼接,显式的弥补了本任务和CLIP预训练任务的差异。

这样一来,微调过程优化更加容易,并且也能过通过语义隐式增强了地址文本的判别性。

此外,考虑到图像特征,地址文本特征在预训练特征空间的分布可能是十分不均匀的。

受到流形学习的启发,作者认为本任务中图像-地址文本的理想特征应该位于一个和真实环境匹配的低维流形上。

具体来说,研究人员们引入了在真实地理环境中距离相近的两个点,其地址与图像特征在特征空间也应当接近,反之亦然这一假设。

利用图像与图像两两之间归一化后的真实地理距离来监督它们在特征空间中的距离,从而实现了图像特征与真实地理环境的在距离层面的匹配,使得模型学到的特征空间更加均匀。

因此,AddressCLIP将经典的CLIP损失优化为图像-地址文本对比损失,图像-语义对比损失以及图像-地理匹配损失,最终实现了准确、均匀的图像-地址文本对齐。

完成上述训练后,AddressCLIP可以通过给定候选地址集的形式进行推理。

值得一提的是,得益于模型将图像与各种地址的良好对齐,推理所用的候选文本可以是十分灵活与多样的形式,而非一定要按照训练集的书写规则。

效果优于通用多模态模型

在定量实验结果中,团队主要将模型与与zero-shot的CLIP,直接对齐地址的CLIP以及各种CLIP微调策略方法等进行对比。

可以看到,AddressCLIP在不同数据集,不同指标上均优于各个所比较方法。

在定性实验中,论文主要展示了AddressCLIP在推理形式上的灵活性与泛化性。

通过给定不同精细程度的地址文本的查询(如街区,街道,子街道),模型都可以在测试集图像上展示出与其真实覆盖地理分布一致的激活。

此外,研究人员也畅想了这一任务与数据集与多模态大模型结合的场景。

通过将数据集构造成关于地址问答的多轮对话形式,团队对LLaVA-1.5-vicuna进行了视觉指令微调,实现了对图像地址的生成式识别。

在与前沿多模态模型的对比中展现出明显的优势,尤其是针对图像中不存在地标与明显线索的图像。

作者预计,未来这一技术可以进一步扩展应用于社交媒体基于位置的个性化推荐上,或者与多模态大模型结合进行更加丰富的地址,地理信息相关问答,提供更加智能的城市、地理助手。

论文地址:
https://arxiv.org/abs/2407.08156
项目主页:
https://addressclip.github.io
GitHub:
https://github.com/xsx1001/AddressCLIP

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
抓了那么多贪官,查到的赃款呢?跟我们有关系吗?

抓了那么多贪官,查到的赃款呢?跟我们有关系吗?

细说职场
2026-06-19 14:41:30
多辆“百吨王”在京新高速强行冲卡,当地:正在处理 大货车司机:该路段常见超载车辆

多辆“百吨王”在京新高速强行冲卡,当地:正在处理 大货车司机:该路段常见超载车辆

红星新闻
2026-06-28 11:49:17
斯卢茨基:金顺凯伤势比较严重,初步诊断为肋骨骨折

斯卢茨基:金顺凯伤势比较严重,初步诊断为肋骨骨折

懂球帝
2026-06-28 22:30:31
旗袍的美,在于它不说话,却什么都说了。

旗袍的美,在于它不说话,却什么都说了。

疾跑的小蜗牛
2026-06-28 23:45:16
钾含量非常高的3种菜,建议中老年人要多吃,腿脚有劲,精神足

钾含量非常高的3种菜,建议中老年人要多吃,腿脚有劲,精神足

江江食研社
2026-06-29 07:30:26
以色列的重大胜利黎巴嫩将彻底铲除真主党

以色列的重大胜利黎巴嫩将彻底铲除真主党

海子侃生活
2026-06-28 09:49:22
58岁鲍尔自曝:截肢后,结婚30年的妻子选择离开

58岁鲍尔自曝:截肢后,结婚30年的妻子选择离开

时光慢旅人
2026-06-28 00:49:29
莱万确定将加盟芝加哥火焰 主教练:他与梅西同档

莱万确定将加盟芝加哥火焰 主教练:他与梅西同档

体坛周报
2026-06-29 05:51:13
外国网友热议阿尔及利亚3-3奥地利:斯皮尔伯格,你的剧本不错

外国网友热议阿尔及利亚3-3奥地利:斯皮尔伯格,你的剧本不错

懂球帝
2026-06-28 13:13:04
马云前往俄罗斯观赛与杨受成及容祖儿 蔡卓妍 谢霆锋聚餐的留影。

马云前往俄罗斯观赛与杨受成及容祖儿 蔡卓妍 谢霆锋聚餐的留影。

陈意小可爱
2026-06-27 13:28:32
内卷加剧!比亚迪友商大规模切换二线电池,性价比是关键

内卷加剧!比亚迪友商大规模切换二线电池,性价比是关键

生活魔术专家
2026-06-27 08:32:37
这个小国比朝鲜还神秘,5毛一升油,水电全免费,却是女性的噩梦

这个小国比朝鲜还神秘,5毛一升油,水电全免费,却是女性的噩梦

抽象派大师
2026-06-26 00:56:10
河南农村小伙娶美国女博士,婚后21年不工作,直言:这软饭吃定了

河南农村小伙娶美国女博士,婚后21年不工作,直言:这软饭吃定了

情感艺术家
2026-06-12 21:10:32
演都不演了?奖杯没到手当场“甩脸子”的杨幂,印证了李少红的话

演都不演了?奖杯没到手当场“甩脸子”的杨幂,印证了李少红的话

岁月轻纱
2026-06-27 13:19:50
德国前农长要求废除,欧盟农业改革,让环保目标让位给减负口号

德国前农长要求废除,欧盟农业改革,让环保目标让位给减负口号

无月可归辛
2026-06-29 07:35:11
身中30多刀!34岁被害人带人看房,惨死出租屋内,现场遍布血迹!20年后凶手线索浮现

身中30多刀!34岁被害人带人看房,惨死出租屋内,现场遍布血迹!20年后凶手线索浮现

南方都市报
2026-06-28 15:08:45
新型出轨太会了:不发消息不打电话,只靠这两种方式联系,真藏得太深了

新型出轨太会了:不发消息不打电话,只靠这两种方式联系,真藏得太深了

心理观察局
2026-06-26 07:37:08
2026高考最大黑马!全国数学唯一满分徐可,撕开天才最残酷的真相

2026高考最大黑马!全国数学唯一满分徐可,撕开天才最残酷的真相

解说阿洎
2026-06-29 05:09:06
中国灵活就业者突破3.2亿大关,占就业人口比例高达44%。

中国灵活就业者突破3.2亿大关,占就业人口比例高达44%。

流苏晚晴
2026-06-13 18:21:18
活该!这是出轨的下场

活该!这是出轨的下场

阿凯销售场
2026-06-28 13:43:49
2026-06-29 08:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12858文章数 176506关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

民办高校被指禁止小米汽车入校 校方回应

头条要闻

民办高校被指禁止小米汽车入校 校方回应

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

艺术
亲子
本地
公开课
军事航空

艺术要闻

林徽因先生一生珍稀之影像。

亲子要闻

0-3岁的宝宝可以看这些~

本地新闻

世界杯球迷节:比球赛更好玩的派对

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普又发文威胁:伊朗将不复存在

无障碍浏览 进入关怀版