机器人建图、感知和交互的语义研究综述
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
编辑丨当SLAM遇见小王同学
推荐一篇综述
https://arxiv.org/pdf/2101.00443.pdf
这是目前最新的关于语义SLAM相关综述,正文一共50页,962篇引文,是相当全面的综述。说的更确切一点,这更像一本书!
为防侵权,这里简述一下部分。
声明: 本文只是个人学习记录,侵权可删。论文版权与著作权等全归原作者所有,小王自觉遵守《中华人民共和国著作权法》与《伯尔尼公约》等国内外相关法律,其他个人或者组织等转载请保留此声明!!
摘要
为了让机器人能够更丰富地与周围的世界进行导航和互动,它们可能需要对自己所处的世界有更深入的了解。在机器人学和相关研究领域,对理解的研究通常被称为语义学,它规定了世界对机器人来说“意味着什么”,并且与如何表示这种意义的问题密切相关。在需求的驱动下,以及在提高训练数据和计算资源的可用性等因素的推动下,语义学是机器人学中一个快速发展的研究领域。迄今为止,该领域在研究文献中受到了极大的关注,但大多数都集中在该主题的特定方面:关于其在特定机器人主题(如建图)中的使用的技术研究问题,或其与自动驾驶等特定应用领域的相关性。因此,这篇调查论文提供了当今机器人学中语义的总体概况。
我们为机器人学中或与机器人学相关的语义研究建立了一个分类法,分为四大类。在这些广泛的类别中,我们调查了几十个主要主题,包括来自计算机视觉领域的基础知识和利用语义的机器人研究领域,包括建图、导航和与世界的交互。本文还涵盖了关键的实际考虑因素,包括提高数据可用性和改进计算硬件等使能因素,以及语义在其中发挥或可能发挥关键作用的主要应用领域。在创建这个综述时,我们希望为学术界和工业界的研究人员提供一个全面的参考,帮助促进这个令人兴奋的领域的未来研究。
四个分类
在这里我们提出了一个与机器人相关的语义分类(见图1)。我们发现相关文献可以分为四大类:
静态和非具体化场景理解,其中研究的重点通常是从图像中提取语义信息的内在能力,例如,对象识别和图像分类。该方向的大多数研究使用基于单个图像的2D输入来推断该图像的潜在语义或3D内容。然而,在这种情况下,图像获取和处理本质上主要是静态的(包括由静态摄像机拍摄的视频),从概念上将其与移动具体化代理由于代理的运动而对环境的动态感知分开。因为RGB相机在机器人学中被广泛使用,并且正在执行的任务,例如对象识别,也由机器人来执行,所以该领域的进展与机器人学研究相关。在第二节中,我们介绍了与机器人学相关或使能机器人学的语义学的基本组成部分,重点是主要或最初在非机器人学但相关研究领域(如计算机视觉)研究的主题。我们涵盖了语义的关键组成部分,如对象检测、分割、场景表示和图像检索,这些都是与机器人高度相关的功能,即使并非所有的工作都已经在机器人平台上进行了演示。
动态环境理解和建图,其中研究通常由机器人及其周围环境的移动或动态性质驱动。这一类别的研究文献包括语义建图的任务,它可以是拓扑的,或者是稠密和精确的3D重建。这些映射任务通常可以利用静态场景理解研究的进步,例如,形成语义拓扑基础的位置分类(图像分类),或者作为语义3D重建模块的一部分使用的像素级语义分割。语义地图在环境或空间层面上提供了信息和理解的表示。随着3D传感设备的日益使用,以及视觉SLAM的成熟,对3D点云语义理解的研究也在不断发展,旨在实现更丰富的3D世界语义表示。在第三节中,我们将讨论在环境层面上使用语义来开发表示和理解。这包括使用地点、对象和场景图进行语义映射,以及通过SLAM和点云处理进行3D场景理解
与人类和世界互动,现有的研究将感知能力和行动能力“联系起来”。这个空间的文学可以进一步分为“对交互的感知”和“对交互的感知”。前者包括理解人类和其他动态代理的动作和活动,并使机器人能够从演示中学习的基本能力。后者包括与使用感知信息来行动或执行任务相关的研究,例如,为检测到的对象开发操纵策略。在机器人学的背景下,检测一个对象的启示与识别该对象一样重要,使语义推理与任务和启示(如“切割”和“包含”)相关,而不是与特定的对象类别(如“刀”和“罐子”)相关。虽然物体抓取和操纵与机器人与环境的交互有关,但对与其他人和机器人的交互的研究包括使用自然语言来生成逆语义,或遵循导航指令。第四节讨论了语义的使用,以促进机器人与世界的互动,以及与居住在那个世界的人类和机器人的互动。它着眼于围绕启示、抓取、操纵、更高层次的目标和决策、人机交互以及视觉和语言导航的关键问题
提高任务能力,研究人员一直致力于利用语义表示来提高其他任务的能力。例如,这包括使用语义进行高级推理,以改进定位和视觉位置识别技术。此外,语义信息可以用于解决更具挑战性的问题,例如处理具有挑战性的环境条件。机器人研究人员还专注于释放机器人学中语义全部潜力的技术,因为现有的研究并不总是由现实世界机器人应用的挑战驱动或必须通过解决噪声、混乱、成本、不确定性和效率等挑战来应对这些挑战。在第五节中,我们讨论了研究人员提取或使用语义表示进行定位和视觉位置识别的各种方法,处理具有挑战性的环境条件,并通过解决额外的挑战在机器人环境中实现语义。
上面介绍的四大类包含了机器人学和相关领域中关于语义如何在各种环境中定义或使用的相关文献。这也反映在图1中,通过“提取语义”和“使用语义”标签与分类法的不同部分相关联。从图像、视频、3D点云或通过主动遍历环境提取语义都是创建语义表示的方法。这种语义表示可以输入到高级推理和决策过程中,从而能够执行复杂的任务,例如路径规划、车辆轨迹预测等。此外,在如农业机器人、自动驾驶、增强现实和无人机等也有语义信息的应用。语义表示本身可以被联合开发和定义,而不是简单地被利用,要考虑它们是如何被使用的。因此,在图1中,与“使用语义”相关的部分也与“提取语义”相关。这些高级任务可以受益于与语义相关的基础和应用研究的进展。但光有这项研究是不够的:其他领域的进步至关重要,如更好的云基础设施、先进的硬件架构和计算能力,以及大型数据集和知识库的可用性。第六节回顾了基于语义的机器人部署方法在广泛领域的涌入,以及支撑当前和未来进展的关键技术。最后,第七节讨论了该领域的一些关键挑战和通过未来研究应对这些挑战的机会,总结了未来可能仍然是一个令人兴奋和高度活跃的研究领域的内容。
讨论和结论
机器人的感知、世界建模和决策已经超越了早期对几何和外观的有限关注。正如我们所讨论的,现代方法越来越多地包含语义信息,这使得对世界的理解更高、更丰富。作为回报,各种新的机器人应用已经出现,新的应用即将出现。
然而,许多令人兴奋的研究方向仍然存在。一个悬而未决的问题是关于语义的显式或隐式表示:作为研究人员和算法设计人员,我们应该强制语义信息显式表示,还是让算法隐式学习任务相关的语义概念?我们了解哪些语义概念与特定的机器人任务相关吗?机器人相关和人类相关的语义概念之间有直接的映射吗?在一个自主系统的可解释性和“可信度”变得越来越重要的时代,我们如何理解和解释机器人学习的语义概念,这些概念与我们作为人类所熟悉的任何语义概念都没有直接的对应关系?虽然如果机器人和人类之间的概念是相同的,这将是“整洁的”,但是如果最佳的机器人性能涉及人类不能直接解释的语义学习和表示,这可能是一个正在进行的研究重点领域。
目前,大多数语义表示采用扁平结构。然而,许多语义概念可以自然地组织在一个层次结构中(或者甚至组织成一个更一般的、类似图形的结构)。这对于对象类标签(对象→室内对象→家具→椅子)来说可能是最明显的,但是对于启示、房间或场所类别以及其他语义域来说也可能是有用的表示。这种层次结构也在空间上延伸,语义概念可以在对象部分、对象、对象的功能集合、房间、建筑和城市街区的尺度上表达。层次语义知识可能不是一个“干净”的表示,而是涉及层次之间的区别可能非常模糊的层次;以咖啡师的咖啡机为例,它既是一个单一的复杂物体,也是一组物体。理解语义层次的不同方面对于机器人应用程序来说很重要,尤其是当面对不完美的感知或不完整的知识时。
这一讨论很快引出了关于语义概念的本质以及它们如何被机器人算法表示为可访问的更有原则的问题。除非人们遵循纯粹的、包罗万象的端到端学习的承诺,否则关于语义概念的先验知识需要以某种形式进行建模和表示。这已经在经典的人工智能知识表示和推理研究中得到了广泛的研究。一个有趣的中间立场是尝试将手工制作的语义作为优先事项纳入基于学习的系统,该系统可以以任务通知的方式扩展、继续学习,甚至重新学习语义。鉴于机器人技术的潜在应用范围很广,其复杂程度和操作要求各不相同(尤其是在安全性和可靠性方面),可能需要一系列方法,并根据具体情况进行调整;从纯端到端到混合,再到完全手工制作
正如调查中提到的与语义研究相关的数据集,在涉及语义的不同研究子领域之间可能会有明显的脱节。为了在自主车辆等应用领域取得足够的进展,语义方面的大部分工作都集中在特定领域的实现上,这导致了更高的性能水平,但代价是可能牺牲所有机器人的通用性。有趣的是,从自主驾驶等领域的目标语义研究中获得的见解将在多大程度上惠及机器人领域,就像有趣的是,通过专注于为机器人(或者在这种情况下为自主车辆)提供对周围世界的目标受限的理解,是否有可能取得足够的进展。
像许多其他主题一样,语义相关研究的进展在某种程度上受到学科边界脱节的影响,尤其是在机器人学和计算机视觉之间。一个相关的问题是基于数据集的评估的优势,特别是对于像语义分割这样的任务。在主要会议上的论文,例如CVPR这样的会议上的计算机视觉学科,主要是由在这些基准数据集上实现新水平的性能的研究所主导的。尽管在高保真仿真环境中进行评估是一个很有前途的趋势,但仅在数据集和仿真上的性能只是在机器人平台上实现安全可靠部署的一步,这一点已经在自主道路车辆等应用领域得到了揭示。在可预见的未来,弥合数据集性能和机器人闭环性能之间的差距可能仍然是一项重大挑战,但也为我们可能创造的“主动”语义提供了一个独特的机会,即通过主动控制机器人平台及其感知模式来增强语义学习和理解。
这项调查总结了语义研究的现状:基础,以及语义越来越多地集成到系统中,解决关键的机器人功能,如建图和与世界的交互。尽管在向机器人灌输对周围世界更丰富、更细致的理解方面取得了很大进展,但仍有许多工作要做。未来的研究将受益于支撑许多基于语义的研究的技术和数据集的发展,以及新的概念方法,包括这里讨论的那些。机器人学中语义的使用也将继续被人类所知晓。人类交际丰富运用各种语义概念;我们制定任务,给出指示和反馈,并根据物体的意义、启示或更广泛的时空背景传达期望。将语义融入机器人技术,特别是通过将经典方法与现代的、基于学习的方法相结合,可能会对未来的机器人应用产生巨大影响,特别是那些机器人与人类密切合作、为人类工作或围绕人类工作的应用。
·················END·················
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~