网易首页 > 网易号 > 正文 申请入驻

论文记录:图像描述技术综述(image caption)

0
分享至

图像描述技术,就是以图像为输入,通过数学模型和计算使计算机输出对应图像的自然语言描述文字,使计算机拥有 “看图说话”的能力,是图像处理领域中继图像识别、图像分割和目标跟踪之后的又一新型任务。

在日常生活中,人们可以将图像中的场景、色彩、逻辑关系等低层视觉特征信息自动建立关系,从而感知图像的高层语义信息,但是计算机作为工具只能提取到数字图像的低层数据特征,而无法像人类大脑一样生成高层语义信息,这就是计算机视觉中的“语义鸿沟”问题。图像描述(字幕)技术(Image Caption Generation)的本质就是将计算机提取的图像视觉特征转化为高层语义信息,即解决“语义鸿沟”问题,使计算机生成与人类大脑理解相近的对图像的文字描述,从而可以对图像进行分类、检索、分析等处理任务。

基于深度学习的图像描述方法

AI

近年来,随着深度学习技术的不断发展,神经网络在计算机视觉和自然语言处理领域得到了广泛应用。受机器翻译领域中编码器-解码器(Encoder-Decoder)模型的启发,图像描述可以通过端到端的学习方法直接实现图像和描述句子之间的映射,将图像描述过程转化成为图像到描述的“翻译”过程。深度学习方法可以直接从大量数据中学习图像到描述语句的映射,生成更加准确的描述,其性能远远超过传统方法。

基于编码器-解码器的方法

基于深度学习的图像描述生成方法大多采用以CNN-RNN为基本模型的编码器-解码器框架,CNN决定了整个模型的图像识别能力,其最后的隐藏层的输出被用作解码器的输入,RNN是用来读取编码后的图像并生成文本描述的网络模型,如图所示:

基于编码器-解码器的图像描述模型

参考论文: MAOJH,XU W,YANG Y,etal.Deep captioning with multi-modal recurrent neural networks (m-RNN)

VINYALSO,TOSHEV A,BENGIOS,etal.Showandtell:A neural image caption generator

基于注意力机制的方法

随着深度学习的发展,注意力机制被广泛应用于计算机视觉领域,其本质是为了解决编码器-解码器在处理固定长度向量时的局限性。注意力机制并不是将输入序列编码成一个固定向量,而是通过增加一个上下文向量来对每个时间步的输入进行解码,以增强图像区域和单词的相关性,从而获取更多的图像语义细节。

融入注意力机制的编码器-解码器图像描述模型

参考论文: XU K,BA JL,KIROS R,etal.Show,attendandtell:Neural image caption generation with visual attention

LU JS,XIONG C M,DEVIP,etal.Knowing whentolook: Adaptive attention via a visual sentinel for image captioning(自适应注意力机制)

基于生成对抗网络的方法

生成对抗网络模型中至少有两个模块:生成网络和判别网络。在训练过程中,生成网络生成尽量真实的数据以“欺骗”判别网络,并且通过判别网络的损失不断进行学习;而判别网络的任务就是区分生成的数据和真实数据。这两个网络通过动态的博弈学习,可以从无标签的数据中学习特征,从而生成新的数据。Dai等在2017年使用生成对抗网络通过控制随机噪声向量来生成多样化的描述。

该模型分为两部分(如图所示):第一部分是句子生成部分,在该部分中依然使用CNN来提取图像特征,使用LSTM来生成句子,区别是在生成单词时加入了随机噪声,并在描述句生成完成后将其输入到第二部分的判别器进行评估。第二部分用来做句子评估,使用LSTM对句子进行编码,与图像特征一起处理获得一个概率值,评估该描述句是否与人类描述相似,是否符合图像内容,最后使用策略梯度方法反向传播更新参数,使其获得最大的概率值,直到输出理想的描述句。

基于生成对抗网络的图像描述

参考论文: DAIB,SANJAF,RAQUELU,etal.Towards Diverse and Natural Image Descriptions via a Conditional GAN

CHENF H,JIR R,SUN XS,etal.GroupCap:Group-Based Image Captioning with Structured Relevance and Diversity Constraint

基于强化学习的方法

强化学习也是机器学习领域中重要的方法之一。在强化学习中,智能体(Agent)以尝试的方式与环境之间不断交互,如图所示。在交互过程中,环境的状态由于智能体的动作而发生改变,并且环境将奖赏和当前时间的状态作为强化信号反馈到智能体,智能体在强化信号的作用下改变其在环境中的动作,可以针对具体的问题实施特定的动作策略,旨在获取最大的奖赏。在图像描述任务中,强化学习可以解决在训练和预测过程中解码器的不同参数带来的解码(曝光)偏差的问题,并且在训练时通过反向传播算法对模型进行训练优化,从而解决训练和测评指标不匹配的问题。

强化学习图示

参考论文: LIUSQ,ZHUZH,YEN,etal.Improved Image Captioning via Policy Gradient optimization of SPIDE

基于密集描述的方法

基于密集描述的图像描述方法就是将图像描述分解为多个图像区域描述,当描述一个物体时,可以看作目标识别,当描述很多物体或一幅图像时,就是图像描述,如图所示。

基于密集描述的图像描述

参考论文: YANGLJ,TANG K,YANGJC,etal.Dense captioning with joint inference and visual context

图像描述技术已被广泛应用于智能信息传播、智慧家居和智慧交通等领域,对人们的日常生活有着重要的实际意义,将来图像描述任务在深度学习和人工智能领域仍是一个重要的研究方向。

来源:知乎

作者:八月十八

深延科技|

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学术大佬们慌了!集体连夜删减简历、隐藏论文,评论区一针见血

学术大佬们慌了!集体连夜删减简历、隐藏论文,评论区一针见血

谭谈社会
2026-05-27 13:08:19
新加坡媒体:警惕!《给阿嬷的情书》正在东南亚华人社会悄悄蔓延

新加坡媒体:警惕!《给阿嬷的情书》正在东南亚华人社会悄悄蔓延

手工制作阿歼
2026-05-27 09:00:23
入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

叹为观止易
2026-05-28 05:57:08
一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

万象硬核本尊
2026-05-28 21:24:47
刚刚!朱一明巨额套现!

刚刚!朱一明巨额套现!

中国半导体论坛
2026-05-28 20:15:06
蔚来CEO:我是马刺球迷,输球郁闷了好久晚上还得开发布会

蔚来CEO:我是马刺球迷,输球郁闷了好久晚上还得开发布会

懂球帝
2026-05-28 11:55:26
世体:因费兰不愿被加入到小蜘蛛交易中,巴萨也放弃球员交换

世体:因费兰不愿被加入到小蜘蛛交易中,巴萨也放弃球员交换

懂球帝
2026-05-28 20:44:35
没想到,武契奇访华仅4天,45岁妻子竟凭一个举动给他长脸了

没想到,武契奇访华仅4天,45岁妻子竟凭一个举动给他长脸了

谛听骨语本尊
2026-05-28 13:49:53
Claude Code创始人建议计算机科学毕业生创业:现在是黄金时代

Claude Code创始人建议计算机科学毕业生创业:现在是黄金时代

IT之家
2026-05-28 15:14:24
米其林将发布天津榜单!

米其林将发布天津榜单!

天津人
2026-05-28 14:30:32
为什么全国人民都在拒接电话?

为什么全国人民都在拒接电话?

黯泉
2026-04-18 17:00:56
少年打球得罪富二代,被砍断双手身亡,家长:给我砍,老子不差钱

少年打球得罪富二代,被砍断双手身亡,家长:给我砍,老子不差钱

就一点
2026-05-18 00:00:54
湖北大娘硬讹收割机后续!警方介入,当地人再曝恶行,根本不敢惹

湖北大娘硬讹收割机后续!警方介入,当地人再曝恶行,根本不敢惹

米果说识
2026-05-27 14:27:31
王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

小兰聊历史
2026-05-25 07:41:20
孟晖任湖北省教育厅厅长

孟晖任湖北省教育厅厅长

EOL教育在线
2026-05-28 17:16:40
中方已读不回,巴拿马外长大闹联合国会场,向中方索要“尊重”

中方已读不回,巴拿马外长大闹联合国会场,向中方索要“尊重”

小小科普员
2026-05-28 16:06:48
北极"尸体点"正在融化:数百年前的水手遗骨暴露于世

北极"尸体点"正在融化:数百年前的水手遗骨暴露于世

闪存猎手
2026-05-25 04:36:07
我飞北京动手术,想在亲姐姐家借住3天被拒,我二话不说,当晚就停了帮她还了2年的房贷

我飞北京动手术,想在亲姐姐家借住3天被拒,我二话不说,当晚就停了帮她还了2年的房贷

感觉会火
2026-04-16 18:21:45
访华不忘给女儿代购,自曝儿子在学中文,夫人疯狂扫货新中式西服旗袍,武契奇一家有多爱中国文化!

访华不忘给女儿代购,自曝儿子在学中文,夫人疯狂扫货新中式西服旗袍,武契奇一家有多爱中国文化!

国是直通车
2026-05-28 14:57:16
多巴胺返贫正在毁掉你孩子的内驱力,适度饥饿才能养出优秀的孩子

多巴胺返贫正在毁掉你孩子的内驱力,适度饥饿才能养出优秀的孩子

男孩派
2026-05-27 10:40:59
2026-05-29 00:07:00
深兰深延AI
深兰深延AI
让AI赋能更简单!
71文章数 0关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

艺术
亲子
本地
手机
公开课

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

亲子要闻

“家长听豆包给婴儿每顿只喂60ml奶”体重未增? 豆包回应

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

iPhone20外观重大调整!四曲屏+圆润边框

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版