当前位置:首页>编程日记>正文

CVPR论文 - 所见所想所找:基于生成模型的跨模态检索

CVPR论文 - 所见所想所找:基于生成模型的跨模态检索 配图01

〔小叽导读〕:视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域结合的一个热点。对于跨模态检索而言,如何学到合适的特征表达非常关键。本文提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模态数据的高层次特征相似性,以及目标模态上的局部相似性。本文通过大量的实验证明了所提出的方法可以准确地匹配图像和文本,并且在MSCOCO以及Flickr30K的数据集上都取得了state-of-the-art的效果。

引言

我们已经进入到了一个大数据时代,不同模态的数据例如文本、图像等正在以爆炸性的速度增长。这些异质的模态数据也给用户的搜索带来了挑战。

对于文本-视觉的跨模态表示,常见的方法就是首先每个模态的数据编码成各自模态的特征表示,再映射到一个共同空间内。通过ranking loss来对其进行优化,使得相似的图像-文本对映射出的特征向量之间的距离小于不相似的图像-文本对之间的距离。

尽管这种方法学习出的特征可以很好地描述多模态数据高层语义,但是没有充分地挖掘图像的局部相似度和句子的句子层次相似度。例如文本检索图片时,我们会更多地关注图片的颜色、纹理以及布局等细节信息。而仅仅进行高层次特征匹配,显然无法考虑到局部的相似度。

本文的想法来源于对人的思维的思考。对于人来说,给定一段文字描述去检索匹配的图像,一名训练有素画家可以比普通人找到更匹配的图像,那是因为画家知道预期的图片是什么样;类似,给一幅图片去检索匹配的文字描述,一名作家也往往会给出比普通人更好的描述。我们把这种对检索目标有预期的过程称为——“Imagine”或者“脑补”。因此,我们提出了一种基于生成模型的跨模态特征学习框架(generative cross-modal feature learning framework,GXN),下图展示了本文的思想:

CVPR论文 - 所见所想所找:基于生成模型的跨模态检索 配图02

我们把原来的Look和Match变成了三个步骤:Look,Imagine和Match,也称为”所看所想所找”。Look叫“所看”,“看”是理解,实际就是提取特征。Imagine叫“所想”,根据“所看”去“脑补”预期的匹配结果, 也就是从得到的局部特征去生成目标模态的数据;Match也叫“所找”,根据生成/脑补的结果进行局部层次(sentence-level/pixel-level)匹配和高层次语义特征匹配。

方法

GXN包括三个模块:多模态特征表示(上部区域);图像 -文本生成特征学习(蓝色路径)和文本 - 图像生成对抗特征学习(绿色路径)。

CVPR论文 - 所见所想所找:基于生成模型的跨模态检索 配图03

第一个部分(上部区域)和基本的跨模态特征表示做法类似,将不同模态的数据映射到共同空间。这里包括一个图像编码器和两个句子编码器和。之所以分开2个句子编码器,是便于学到不同层次的特征。其中,是高层语义特征而作为局部层次的特征。这里的局部层次特征是通过生成模型学习得到的。

第二部分(蓝色路径)从底层视觉特征生成一个文本描述。包括一个图像编码器和一个句子解码器。这里计算损失时我们结合了增强学习的思想,通过奖励的方式来确保生成句子和真实句子之间具有最大的相似度。

第三部分(绿色路径)通过使用一个从文本特征中生成一幅图像,包括一个生成器和一个判别器。判别器用来区分基于文本生成的图像与真实图像。

最终,我们通过两路的跨模态特征生成学习学习到更好的跨模态特征表示。在测试时,我们只需要计算和之间的相似度来进行跨模态检索。

实验

本文提出的方法在MSCOCO数据集上和目前前沿的方法进行比较,并取得了state-of-the-art的结果。

CVPR论文 - 所见所想所找:基于生成模型的跨模态检索 配图04

总结

本文创新性地将图像-文本生成模型和文本-图像生成模型引入到传统的跨模态表示中,使其不仅能学习到多模态数据的高层的抽象表示,还能学习到底层的表示。显著超越state-of-the-art方法的表现证实了该方法的有效性。

原文发布时间为:2018-07-19
本文作者:匿名
本文来自云栖社区合作伙伴“阿里巴巴机器智能 ”,了解相关信息可以关注“ 阿里巴巴机器智能 ”。


http://www.coolblog.cn/news/ff88d160951b3f17.html

相关文章:

  • asp多表查询并显示_SpringBoot系列(五):SpringBoot整合Mybatis实现多表关联查询
  • s7day2学习记录
  • 【求锤得锤的故事】Redis锁从面试连环炮聊到神仙打架。
  • 矿Spring入门Demo
  • 拼音怎么写_老师:不会写的字用圈代替,看到孩子试卷,网友:人才
  • Linux 实时流量监测(iptraf中文图解)
  • Win10 + Python + GPU版MXNet + VS2015 + RTools + R配置
  • 美颜
  • shell访问php文件夹,Shell获取某目录下所有文件夹的名称
  • 如何优雅的实现 Spring Boot 接口参数加密解密?
  • LeCun亲授的深度学习入门课:从飞行器的发明到卷积神经网络
  • Mac原生Terminal快速登录ssh
  • java受保护的数据与_Javascript类定义语法,私有成员、受保护成员、静态成员等介绍...
  • mysql commit 机制_1024MySQL事物提交机制
  • 支撑微博千亿调用的轻量级RPC框架:Motan
  • jquery 使用小技巧
  • 2019-9
  • 法拉利虚拟学院2010 服务器,法拉利虚拟学院2010
  • vscode pylint 错误_将实际未错误的py库添加到pylint白名单
  • 科学计算工具NumPy(3):ndarray的元素处理
  • 工程师在工作电脑存 64G 不雅文件,被公司开除后索赔 41 万,结果…
  • linux批量创建用户和密码
  • newinsets用法java_Java XYPlot.setInsets方法代碼示例
  • js常用阻止冒泡事件
  • 气泡图在开源监控工具中的应用效果
  • 各类型土地利用图例_划重点!国土空间总体规划——土地利用
  • php 启动服务器监听
  • dubbo简单示例
  • 【设计模式】 模式PK:策略模式VS状态模式
  • [iptables]Redhat 7.2下使用iptables实现NAT
  • Ubuntu13.10:[3]如何开启SSH SERVER服务
  • CSS小技巧——CSS滚动条美化
  • JS实现-页面数据无限加载
  • 阿里巴巴分布式服务框架 Dubbo
  • 最新DOS大全
  • Django View(视图系统)
  • 阿里大鱼.net core 发送短信
  • 程序员入错行怎么办?
  • 两张超级大表join优化
  • 第九天函数
  • Linux软件安装-----apache安装
  • HDU 5988 最小费用流
  • Sorenson Capital:值得投资的 5 种 AI 技术
  • 《看透springmvc源码分析与实践》读书笔记一
  • 正式开课!如何学习相机模型与标定?(单目+双目+鱼眼+深度相机)
  • Arm芯片的新革命在缓缓上演
  • nagios自写插件—check_file
  • python3 错误 Max retries exceeded with url 解决方法
  • 行为模式之Template Method模式
  • 通过Spark进行ALS离线和Stream实时推荐