当前位置:首页>编程日记>正文

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘

2020-01-06 10:17

导语:基本想法是优化多模态摘要训练的目标函数~

 

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图01

作者 | 朱军楠、张家俊

多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片、文本等)的信息中生成图文式摘要的过程。该技术可以广泛应用于新闻推送、跨境电商、产品描述自动生成等多个领域,具有重要的研究价值和丰富的应用场景。

近年来,随着计算机视觉以及自然语言处理技术的发展,多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络,同时利用注意力机制来辅助挑选图片。

这种做法容易带来模态偏差的问题,即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程,如图1所示。若只考虑文本模态的损失,B摘要是要优于A摘要的,但是很显然B摘要中的图片的人物对应关系不对;而当我们引入图片选择的损失时,我们可以明显的判断出A摘要是优于B摘要的,并且这也符合基本事实。

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图02

图 1 模态偏差的示例

论文方法

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图03

针对于上述问题,中科院自动化所自然语言处理组博士生朱军楠、周玉研究员、张家俊研究员、宗成庆研究员等提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数,即在文本损失的基础上增加图片选择的损失函数。

如图2所示,该方法由三部分组成:

  • (1)首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准,主要采用两种方式,即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序;

  • (2)在模型上添加图片判别器用于训练图片挑选的过程,模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成;

  • (3)通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型,具体而言我们将两对图片-描述的文本部分(或图像部分)进行交换去构造两个匹配的多模态片段,如图3所示。

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图04

图 2 多模态基准指导的多模态自动文摘框架图

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图05

图 3 多模态匹配片段构造示意图

 实验结果

目前多模态自动文摘的数据集还比较匮乏,我们之前发布了一个公开数据集MSMO,这项工作也在该数据集上进行实验验证。在对比摘要方法的性能之前,我们首先需要明确应该采用哪种评价指标。在之前的工作中,图文式摘要的评价关注三个方面的指标:图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。在我们的方法中,我们引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度(输出和参考答案的最大相似度)。MMAE是对IP、ROUGE和Msim的组合,MMAE++是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。我们利用与人工打分之间的相关度来对比不同的自动评价指标。

表 1 不同评价指标与人工打分之间的相关度(分值越高、性能越好)

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图06

表1给出了不同的自动评价指标与人工打分的相关度,可以看出融入了直接测量多模态片段的评价指标MR之后,新的自动评价模型MMAE++相比于MMAE在与人工打分的相关度上有一个显著的提升。为了衡量我们提出的多模态基准指导的模型,我们同多个强基线模型进行了对比,包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型(ATG、ATL)、层次化的多模态自动文摘模型(HAN)以及基于图模型的抽取式自动文摘模型(GR)。

表 2 不同模型生成的图文式摘要的质量对比(MOF表示多模态基准指导的方法、RR表示通过ROUGE值对图片排序,OR表示通过输入图片的顺序对图片排序,enc表示利用编码器隐层状态选择图片,dec表示利用解码器隐层状态选择图片)

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图07

表2给出了不同模型生成的图文式摘要的质量对比。可以看出在引入多模态基准指导后,模型的图片挑选质量(IP)得到了显著的改善,并且文本生成质量也有略微改进,从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言,采用解码器隐层状态去进行图片选择效果会更好AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图08。另一方面,使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图09

表 3 图片选择的损失函数的权重大小

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图10

我们也对比了不同的图片选择损失函数权重对于模型性能的影响,可以看到当图片和文本的损失函数的权重都相同时,图文摘要的质量是最好的。

表 4 计算图片损失中考虑的图片的数量的影响

AAAI 2020 - 多模态基准指导的生成式多模态自动文摘 配图11

我们对比了在计算图片损失中考虑的图片数量(即top-K图片作为gold standard)所带来的影响,并且发现当 K=3的时候,模型取得了最好的效果。

相关细节可参考发表于人工智能顶级学术会议AAAI 2020的论文:

Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, Changliang Li. Multimodal Summarization with Guidance of Multimodal Reference. AAAI-2020.


http://www.coolblog.cn/news/bdfc238fc2a1b24b.html

相关文章:

  • asp多表查询并显示_SpringBoot系列(五):SpringBoot整合Mybatis实现多表关联查询
  • s7day2学习记录
  • 【求锤得锤的故事】Redis锁从面试连环炮聊到神仙打架。
  • 矿Spring入门Demo
  • 拼音怎么写_老师:不会写的字用圈代替,看到孩子试卷,网友:人才
  • Linux 实时流量监测(iptraf中文图解)
  • Win10 + Python + GPU版MXNet + VS2015 + RTools + R配置
  • 美颜
  • shell访问php文件夹,Shell获取某目录下所有文件夹的名称
  • 如何优雅的实现 Spring Boot 接口参数加密解密?
  • LeCun亲授的深度学习入门课:从飞行器的发明到卷积神经网络
  • Mac原生Terminal快速登录ssh
  • java受保护的数据与_Javascript类定义语法,私有成员、受保护成员、静态成员等介绍...
  • mysql commit 机制_1024MySQL事物提交机制
  • 支撑微博千亿调用的轻量级RPC框架:Motan
  • jquery 使用小技巧
  • 2019-9
  • 法拉利虚拟学院2010 服务器,法拉利虚拟学院2010
  • vscode pylint 错误_将实际未错误的py库添加到pylint白名单
  • 科学计算工具NumPy(3):ndarray的元素处理
  • 工程师在工作电脑存 64G 不雅文件,被公司开除后索赔 41 万,结果…
  • linux批量创建用户和密码
  • newinsets用法java_Java XYPlot.setInsets方法代碼示例
  • js常用阻止冒泡事件
  • 气泡图在开源监控工具中的应用效果
  • 各类型土地利用图例_划重点!国土空间总体规划——土地利用
  • php 启动服务器监听
  • dubbo简单示例
  • 【设计模式】 模式PK:策略模式VS状态模式
  • [iptables]Redhat 7.2下使用iptables实现NAT
  • Ubuntu13.10:[3]如何开启SSH SERVER服务
  • CSS小技巧——CSS滚动条美化
  • JS实现-页面数据无限加载
  • 阿里巴巴分布式服务框架 Dubbo
  • 最新DOS大全
  • Django View(视图系统)
  • 阿里大鱼.net core 发送短信
  • 程序员入错行怎么办?
  • 两张超级大表join优化
  • 第九天函数
  • Linux软件安装-----apache安装
  • HDU 5988 最小费用流
  • Sorenson Capital:值得投资的 5 种 AI 技术
  • 《看透springmvc源码分析与实践》读书笔记一
  • 正式开课!如何学习相机模型与标定?(单目+双目+鱼眼+深度相机)
  • Arm芯片的新革命在缓缓上演
  • nagios自写插件—check_file
  • python3 错误 Max retries exceeded with url 解决方法
  • 行为模式之Template Method模式
  • 通过Spark进行ALS离线和Stream实时推荐