当前位置:首页>编程日记>正文

2021深度学习的研究方向推荐!Transformer、Self-Supervised、Zero-Shot和多模态

本站寻求有缘人接手,详细了解请联系站长QQ1493399855

先写两个最近火热我比较看好的方向Transformer和Self-Supervised,我这里举的例子倾向于计算机视觉方向。最后再补充Zero-Shot和多模态两个方向。

1.Transformer

自从去年DETR和ViT出来之后,计算机视觉领域掀起了Transformer狂潮。目前可以做的主要有两个路径,一个是魔改DETR和ViT,另一个是不同task迁移算法。

魔改DETR和ViT的方法,无非是引入local和hierarchical,或者魔改算子。

不同task迁移算法主要是探究如何针对不同的task做适配设计。

其中魔改DETR的可以参考以下工作:

[Deformable DETR] [TSP-FCOS/TSP-RCNN] [UP-DETR] [SMCA] [Meta-DETR] [DA-DETR]

其中魔改ViT的可以参考以下工作:

魔改算子:

[LambdaResNets] [DeiT] [VTs] [So-ViT] [LeViT] [CrossViT] [DeepViT] [TNT] [T2T-ViT]

[BoTNet] [Visformer]

引入local或者hierarchical:

[PVT] [FPT] [PiT] [LocalViT] [SwinT] [MViT] [Twins]

Swin Transformer对CNN的降维打击

引入卷积:

[CPVT] [CvT] [ConViT] [CeiT] [CoaT] [ConTNet]

不同task迁移算法的可以参考以下工作:

ViT+Seg [SETR] [TransUNet] [DPT] [U-Transformer]

ViT+Det [ViT-FRCNN] [ACT]

ViT+SOT [TransT] [TMT]

ViT+MOT [TransTrack] [TrackFormer] [TransCenter]

ViT+Video [STTN] [VisTR] [VidTr] [ViViT] [TimeSformer] [VTN]

ViT+GAN [TransGAN] [AOT-GAN] [GANsformer]

ViT+3D [Group-Free] [Pointformer] [PCT] [PointTransformer] [DTNet] [MLMSPT]

以上几个task是重灾区(重灾区的意思是听我一句劝,你把握不住)

ViT+Multimodal [Fast and Slow] [VATT]

ViT+Pose [TransPose] [TFPose]

ViT+SR [TTSR]

ViT+Crowd [TransCrowd]

ViT+NAS [BossNAS]

ViT+ReID [TransReID]

ViT+Face [FaceT]

想一想算子怎么魔改,或者还有什么task没有做的。

2.Self-Supervised

Self-Supervised自从何恺明做出MoCo以来再度火热,目前仍然是最为火热的方向之一。目前可以做的主要有三个路径,一个是探索退化解的充要条件,一个是Self-Supervised+Transformer探索上限,还有一个是探索非对比学习的方法。

探索退化解的充要条件主要是探索无negative pair的时候,避免退化解的最优方案是什么。

[SimCLR] [BYOL] [SwAV] [SimSiam] [Twins]

Self-Supervised: 如何避免退化解

Self-Supervised+Transformer是MoCov3首次提出的,NLP领域强大的预训练模型(BERT和GPT-3)都是Transformer架构的,CV可以尝试去复制NLP的路径,探究Self-Supervised+Transformer的上限。

[MoCov1] [MoCov2] [MoCov3] [SiT]

MoCo三部曲

探索非对比学习的方法就是要设计合适的proxy task。

基于上下文 [Unsupervised Visual Representation Learning by Context Prediction] [Unsupervised Representation Learning by Predicting Image Rotations] [Self-supervised Label Augmentation via Input Transformations]

基于时序 [Time-Contrastive Networks: Self-Supervised Learning from Video] [Unsupervised Learning of Visual Representations using Videos]

刚写了基于时序,何恺明和Ross Girshick就搞了个时序的

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

何恺明+Ross Girshick:深入探究无监督时空表征学习

3. Zero-Shot

最近因为CLIP的出现,Zero-Shot可能会引起一波热潮,ViLD将CLIP成功应用于目标检测领域,相信未来会有越来越多的基于CLIP的Zero-Shot方法。

ViLD:超越Supervised的Zero-Shot检测器

4. 多模态

最近的ViLT结合了BERT和ViT来做多模态,并且通过增加标志位来巧妙的区分不同模态,感觉是一个非常好的做多模态的思路,相信未来会有更强大的多模态出现。

ViLT:最简单的多模态Transformer

至于最近火热的MLP架构,极其不推荐,很沙雕。

最后,适当灌水,有能力还是建议做有影响力的工作。

整理不易,三连


http://www.coolblog.cn/news/596bc823400aa05a.html

相关文章:

  • asp多表查询并显示_SpringBoot系列(五):SpringBoot整合Mybatis实现多表关联查询
  • s7day2学习记录
  • 【求锤得锤的故事】Redis锁从面试连环炮聊到神仙打架。
  • 矿Spring入门Demo
  • 拼音怎么写_老师:不会写的字用圈代替,看到孩子试卷,网友:人才
  • Linux 实时流量监测(iptraf中文图解)
  • Win10 + Python + GPU版MXNet + VS2015 + RTools + R配置
  • 美颜
  • shell访问php文件夹,Shell获取某目录下所有文件夹的名称
  • 如何优雅的实现 Spring Boot 接口参数加密解密?
  • LeCun亲授的深度学习入门课:从飞行器的发明到卷积神经网络
  • Mac原生Terminal快速登录ssh
  • 法拉利虚拟学院2010 服务器,法拉利虚拟学院2010
  • 支撑微博千亿调用的轻量级RPC框架:Motan
  • mysql commit 机制_1024MySQL事物提交机制
  • java受保护的数据与_Javascript类定义语法,私有成员、受保护成员、静态成员等介绍...
  • 2019-9
  • jquery 使用小技巧
  • 科学计算工具NumPy(3):ndarray的元素处理
  • vscode pylint 错误_将实际未错误的py库添加到pylint白名单
  • 工程师在工作电脑存 64G 不雅文件,被公司开除后索赔 41 万,结果…
  • linux批量创建用户和密码
  • js常用阻止冒泡事件
  • 气泡图在开源监控工具中的应用效果
  • newinsets用法java_Java XYPlot.setInsets方法代碼示例
  • 各类型土地利用图例_划重点!国土空间总体规划——土地利用
  • php 启动服务器监听
  • dubbo简单示例
  • Ubuntu13.10:[3]如何开启SSH SERVER服务
  • [iptables]Redhat 7.2下使用iptables实现NAT
  • Django View(视图系统)
  • 【设计模式】 模式PK:策略模式VS状态模式
  • CSS小技巧——CSS滚动条美化
  • JS实现-页面数据无限加载
  • 最新DOS大全
  • 阿里巴巴分布式服务框架 Dubbo
  • 阿里大鱼.net core 发送短信
  • Sorenson Capital:值得投资的 5 种 AI 技术
  • 程序员入错行怎么办?
  • Arm芯片的新革命在缓缓上演
  • 两张超级大表join优化
  • 第九天函数
  • Linux软件安装-----apache安装
  • HDU 5988 最小费用流
  • 《看透springmvc源码分析与实践》读书笔记一
  • 通过Spark进行ALS离线和Stream实时推荐
  • nagios自写插件—check_file
  • python3 错误 Max retries exceeded with url 解决方法
  • 正式开课!如何学习相机模型与标定?(单目+双目+鱼眼+深度相机)
  • 行为模式之Template Method模式