当前位置：首页>编程日记>正文

读后感与机翻《理解工具-面向任务的对象建模、学习和识别》

编程日记 2024/03/02 21:05:38

本站寻求有缘人接手，详细了解请联系站长QQ1493399855

以下是研究朱松纯FPICU概念中P（physics）的第一篇论文记录：

读后感：

作者干了什么事？

作者怎么做的？

效果怎么样？

局限性

摘要

1 介绍

2 面向任务的对象表示

2.1 三维空间工具

2.2. Tooluse in time

2.3 物理概念与因果关系

3 问题定义

3.1 学习物理概念

3.2 通过想象工具的使用来识别工具

3.3 解析人类示范

4 实验

4.2 学习物理概念

4.3 推断工具和工具的使用

4.3.1 识别工具

4.3.2 想象工具使用

5 讨论

5.1 相关工作

5.2 局限性和未来工作

读后感：

作者干了什么事？
- 设计了一个算法，能够仅通过一个RGBD视频的学习来发现工具使用的本质，并在新场景中使用新工具解决原有任务（比如敲开核桃）。
作者怎么做的？
- 设计阶段：工具作用于物体的本质先分解开，即完成某任务需要哪个物理概念类型（比如砸核桃关注工具的“力”、面积刷墙关注工具的“面积”、铲土关注工具的“容积”），然后，检测手持的位置、工具作用于物体的位置、以及计算上述两个位置的速度、加速度、质量、容积等等，以此来让agent能通过计算来解析工具和任务之间关系的本质。
- 训练和推理阶段：用现有的一些视觉技术实现目标分割、接触点计算、面积体积计算、密度估计、质量计算、速度计算、压力计算等等去解析一个“工具教学”RGBD视频，使用排序支持向量机方法学习“工具教学”视频中任务的本质（完成模型训练），然后在新场景下，从一堆新工具中，计算所用工具的物理属性和可能的操作方式和作用效果，并找到最可能解决同样任务的那个新工具（完成模型推理）。
效果怎么样？
- 在作者的测试数据集中，表现只比人差一点。agent能够判断某个工具任务到底需要使用哪种物理概念，以及较准确估计出该工具的“手持位置”和“作用点位置”。
局限性
- 方法的设计上我们可以看到，该方法的应用有很多当前较为苛刻的前提条件，比如3D目标分割、各种物理量的估算和计算等等，这对数据源的要求，对工具形态的要求等都很高。

《Understanding Tools:Task-Oriented Object Modeling, Learning and Recognition》

作者：Yixin Zhu等3人

CVPR 2015

代码：https://github.com/xiaozhuchacha/Kinect2Toolbox

摘要

在本文中，我们提出了一个新的面向任务的建模、学习和识别框架，旨在理解使用对象作为工具时的底层功能、物理和因果关系。给定一项任务，例如，敲开一颗坚果或画一面墙，我们将每一件物品，例如一把锤子或一把画笔，以一种生成的时空表现形式表现出来，这种表现由四个部分组成:1)可用手握住的可操作性基础;(2)作用于目标物体(螺母)的功能基础;(3)具有典型运动轨迹的想象动作;(四)潜在的物理概念，如力、压力等。在学习阶段，我们的算法只观察一个RGB-D视频，其中一个理性的人从众多候选对象中挑选一个对象(即工具)来完成任务。从这个例子中，我们的算法学习了任务中基本的物理概念(例如开裂坚果的力量)。在推理阶段，给我们的算法一组新的对象(日常物品或石头)，并选择可用的最佳选择，以及推断出的启示基础、功能基础、想象的人类动作(姿势序列)和它将产生的预期物理量。从这个新的角度来看，任何物体都可以看作是一把锤子或一把铲子，而物体识别不仅仅是记忆每个类别的典型外观例子，而是推理各种任务中的物理机制，以达到泛化的目的。

1 介绍

在这篇文章中，我们从一个agent的角度重新思考对象识别:对象是如何在行动中作为工具来完成一个任务。在这里，任务被定义为通过动作改变目标对象的物理状态，比如敲碎坚果或粉刷墙壁。工具是在人类行动中用来完成任务的物理对象，如锤子或刷子，它可以是任何日常用品，不限于传统的五金工具。这使我们产生了一个新的面向任务的建模、学习和识别框架，它旨在理解在各种任务类别中使用对象作为工具时的潜在功能、物理和因果关系。

图1说明了这个新框架的两个阶段。在学习阶段，我们的算法只观察一个RGBD视频作为例子，在这个视频中，一个理性的人从众多候选对象中捡起一个对象——锤子来完成任务。从这个例子中，我们的算法推理出任务中基本的物理概念(例如在锤的远端产生的力)，从而学习面向任务的模型。在推理阶段，我们的算法给出了一组新的日常对象(在(b)的桌子上)，并使最佳选择(木制腿)可用来完成任务。

图1所示。面向任务的目标识别。(a)在学习阶段，观察到一个理性的人在其他工具中挑选锤子来敲开坚果。(b)在推理阶段，算法被要求为同一任务在桌子上挑选最好的对象(即木腿)。这种泛化需要物理推理。

从这个新的角度来看,任何物体都可以被视为一种锤或铲,这允许计算机视觉算法生成表示推广对象识别推理小说功能和环境的物理机制在不同的任务,和超越记忆典型例子为每个对象类别的外貌的识别方法在文献中。

图2展示了一些典型的实验结果来说明这个新的面向任务的对象识别框架。给定三个任务:劈木头、铲土、刷墙，以及三组物品:传统工具、家用物品和石头，我们的算法根据任务将这些物品按每组进行排序。图2显示了最上面的两个选项以及使用这些对象进行任务的想象动作。

图2。给他们三个任务:砍木头，铲土，粉刷墙壁。算法选择和排名对象为每个任务对象之间在三组:1)传统工具,家居用品,和3)的石头,和输出想象使用工具:给养基础(绿点掌握的手),功能性的基础上(红色区域应用到目标对象),和想象的动作序列。

我们的面向任务的对象表示是一个生成模型，在一个分层的时空解析图中由四个组件组成

可用手抓住的可提供的基础;
作用于目标对象的功能基础;
具有位姿顺序和速度的想象动作;
产生的物理概念，例如力、压力。

在学习阶段，我们的算法通过重构工具的三维网格和跟踪人的动作来解析输入的RGB-D视频。我们假设人类在演示中做出了理性的决定:选择最好的对象，抓住正确的位置，采取正确的行动(姿势、轨迹和速度)，并以正确的位置降落在目标对象上。这些决定几乎是最优的，相对于大量的组合选择。使用排序支持向量机方法（ranking-SVM approach），我们的算法将发现人类演示中最基本的物理概念，从而发现任务的本质。

在推理阶段，算法将输入的RGB-D图像分割为候选对象集合，并通过对不同组合的评估计算出面向任务的最优解析图。这个解析图包括最佳对象和它的工具使用:启示基础(绿点)，功能基础(红点)，动作(姿势序列)，以及动作产生的物理概念的数量。

本文有四个主要贡献:

提出了一个新的面向任务的对象识别问题，该问题比通过典型实例定义对象类别更为普遍，对机器人应用中的对象操作具有重要意义。
我们提出了一个面向任务的表示，其中包括可见的对象和想象的使用(动作和物理)。后者是计算机视觉中的暗物质[48]。
给定一个输入对象，我们的方法可以想象可能的工具使用，从而允许视觉算法推理出创造性地使用日常对象是人类和机器智能的一个关键方面。
我们的算法可以学习物理概念从一个单一的RGB-D视频和原因的本质的物理任务。

2 面向任务的对象表示

在认知科学[29,4,35,2]中，工具和工具使用传统上是通过口头定义和案例研究来研究的，文献中缺少明确的形式表征。

在面向任务的建模和学习框架中，任务使用的对象表示为空间、时间和因果的联合解析图包括图3所示的三个方面。

空间解析图pgs表示物体分解以及与想象姿态的三维关系
时间解析图pgt表示动作中的位姿序列
因果分析图pgc表示在目标对象上的动作产生的物理量

在这个表示中，只有对象作为输入是可见的，所有其他组件都是想象的。

图3。面向任务的锤子表示及其在空间、时间和因果联合空间中的任务(敲坚果)中的使用。

2.1 三维空间工具

在推理阶段，在RGB-D图像中观察到一个对象(或工具)，然后将其从背景中分割并填充成一个三维实体，用X表示。在空间解析图pgs中，将三维对象分解为两个关键部分：

可供性基础（Affordance basis）， BA：想象中的人的手以某种姿势握住物体。通过线下训练，我们收集了一小组抓握手的姿势。解析图pgs使用手姿态和可视性基础之间的3D几何关系，对工具使用期间手姿态和可视性基础之间的3D位置和3D方向进行编码，就像在[45]中所做的那样。当手舒适地握住物体时，解析图pgs会有较低的能量或较高的概率(见图3中启示基BA的轨迹)。
功能基础（Functional basis），BF：将对象(或工具)应用于目标对象(nut)以改变其物理状态(即fluent)。空间解析图pgs还编码了动作过程中功能基BF与目标物体的三维形状之间的三维关系。我们考虑三种类型的功能基础:(a)单一接触点(如锤);(b)锋利的接触线段或边缘(如斧头和锯子);(c)平面接触区域(如铲)。

我们将空间定义为所有可能的空间解析图pgs的集合，它是所有可能对象的乘积空间，包括它们的可供基、功能基、手的姿势和上面的3D关系。

2.2. Tooluse in time

工具的使用是在任务中使用工具的特定操作序列，它由时间解析图pgt表示。pgt将人体动作A表示为一系列三维姿态。由于我们只考虑手握物体，所以我们利用RGB-D传感器收集了一些典型的动作序列，用于手臂和手的运动，如锤击、铲铲等。然后将这些动作聚集成平均姿态序列。对于每个序列，我们记录手姿态(或提供基础)和功能基础的轨迹。

我们将空间T = fpgtg定义为可提供性基BA和功能性基BF的可能位姿序列及其相关轨迹的集合

2.3 物理概念与因果关系

我们考虑了13个涉及到工具使用的基本物理概念，这些概念可以从图4所示的空间和时间解析图中提取或推导出来。

图4。涉及工具使用及其组成关系的13个物理概念。通过对人体演示的解析，从工具的三维网格(蓝色)、工具使用轨迹(绿色)或联合(红色)估计材料、体积、概念面积和位移等物理概念。高级物理概念可以进一步递归派生。

首先，如图4中的蓝点和线所示，我们从输入的3D对象重建三维网格，计算其体积，通过估计其材质类别，得到其密度。根据体积和密度，我们进一步计算出物体及其部件的质量(当使用不同的材料时)。

其次，如图4中的绿点和绿线所示，我们可以从启示基和功能基的三维轨迹推导出位移，然后计算出两个基的速度和加速度。

第三，如红点和红线所示，我们可以从函数基础和目标对象上估算出接触点、接触线和接触面积，进而计算出动量和冲量。然后我们还可以计算基本的物理概念，如力、压力和功等。

物理概念的运算符

因果分析图pgc包括在工具使用中使用的具体物理概念，通常是图4中概念图的实例化子图。

由于物理定律是普遍适用的，使用物理概念的主要优点是能够将其推广到新的情况。

3 问题定义

3.1 学习物理概念

给定一项任务，学习算法的目标是找到真正的物理概念，最好地解释为什么选择的工具和工具的使用是最佳的。

理性选择假设认为人类的选择是理性的、接近最佳的。如图5 (a-d)所示，我们假设人类基于真实的物理概念选择了最佳工具和工具使用pg(蓝框中)，这样假设空间中的大多数其他工具和工具使用都不会优于演示。

图5。学习和推理的例证。(a)-(d)我们假设人类对工具和工具使用(行动、启示/功能基础)的选择(如蓝色边框所示)接近最佳，因此在假设空间中，大多数其他工具和工具使用组合(行动、启示/功能基础)不应该优于人类演示。基于这一假设，我们将人类演示作为积极的例子，而随机抽取假设空间中的其他工具和工具使用作为消极的例子。(e)推理过程中，给定一个静态场景的图像在一个新的情况下，(f)算法推断出最好的工具和想象最佳的工具使用。

例如，让我们假设真正的物理概念来解释选择一种工具是为了使质量最大化，那么其他工具不应该提供比所选工具更多的质量。如果有一个更重的工具没有被人类选择，这意味着质量不是真正的物理概念。

在学习阶段，我们将所选择的工具和工具使用作为唯一的正训练示例，随机抽取n种不同的工具和工具使用组合pgi, i = 1，…n个假设空间作为负训练样本。

排名函数（Ranking function）：基于理性选择假设，我们将工具识别作为一个排序问题[17]来提出，这样就学习到的排序函数而言，人类演示应该比其他工具和工具使用更好。

学习的目标是找到一个排序函数，表明在给定任务中使用工具的基本目的。

其中W为物理概念的权重系数。直观地看，每个系数反映了相应物理概念对任务的重要性。

学习排序函数等价于找到权系数，从而满足最大的两两约束数。

通过这种方式,这些约束执行人类的示范pg 排名最高分数比其他负面样本pgi下真实的物理概念。

我们通过引入非负松弛变量来近似求解，类似于支持向量机分类[17]。这将导致以下优化问题

每个约束的松弛变量,边际最大化与满足合理选择约束之间的权衡参数。

这是面向任务建模和学习问题的一般公式，其中解析图pg包括对象X、人类动作a和启示/功能基础BA / BF。这样，这个框架包含了以下特殊情况:1)基于外观和几何形状的对象识别(2)行为识别iii)根据可供性检测设备4，物理概念在本文中，我们只关注物理概念的学习。

在我们的实验中，我们只考虑了这样一种情况，即学习者只看到了教师从几种备选工具中选择一种工具的演示。我们更感兴趣的是算法能从这样一个小样本学习问题中学到多少东西，而不是为训练提供一个大的数据集。因此，通过对概念空间的迭代，我们只能分别推断出一个函数基础和启示基础的单一物理概念，而这个公式可以自然地推广到更复杂的情况下，以供今后的研究。

3.2 通过想象工具的使用来识别工具

传统的目标识别方法假设训练集和测试集中目标的视觉模式具有相同的分布。但是，这种假设并不适用于工具识别问题。工具在不同情况下的视觉表现有根本的区别。例如，锤子和石头可以用来敲开坚果，尽管它们的外观非常不同。

为了解决这一挑战，我们提出了这个算法来识别工具的基本物理概念和想象工具在推理过程中的使用。

通过基本的物理概念识别工具。幸运的是，作为领域通用机制，给定任务中的基本物理概念在不同情况下是不变的。例如，锤子和石头可以被归类为相同的工具，以打破坚果，因为相似的能力提供足够的力量。在推理中，我们使用学习排序函数来识别最佳工具。

想象一下超越观察的工具使用。在没有实际看到工具使用情况的情况下，我们的算法首先想象不同的工具使用情况(人类行为和可视性/功能基础)，然后将想象的工具使用情况与观察到的工具结合起来，通过评估排序函数来识别出最佳工具。

如图5(c-d)所示，通过从假设空间中采样人类行为和启示/功能基础来生成想象的工具使用。首先将图像中人手运动轨迹分配到启示基上，然后利用两个基底之间的相对三维变换计算功能基的运动轨迹。最后，我们递归计算物理概念，如第2.3节所讨论的，并据此评估排序函数。

想象工具使用的能力对于agent来说是非常重要的，它可以预测他们如何使用工具，并与环境进行物理互动。

此外，这种想象工具使用的能力使主体能够积极探索不同类型的工具使用，而不是简单地模仿在人类演示中观察到的工具使用。虽然在人类演示中工具的使用被认为是最佳的，但是在不同的情况下，其他工具的使用可能更好。例如，你用石头敲开坚果的方式可能与你用锤子敲开坚果的方式大不相同。

3.3 解析人类示范

在本节中，我们将展示如何使用现成的计算机视觉算法来解析人类演示的输入RGB-D视频。

3d重建。我们应用KinectFusion算法[27]来生成静态场景的三维重建，包括一个工具和一个对象。KinectFusion是经过GPU优化的，这样它就可以以交互速率运行。RGB-D传感器捕获的深度图像每一帧都有大量缺失数据。通过移动传感器，Kinect融合算法通过将时间帧组合成平滑的3D点云/网格来填补这些漏洞(图6 (a))。在这项工作中，我们只关注中型工具，可以拿在一只手，并可以很好地重建的消费者级RGB-D传感器。通过拟合表格的平面，就可以从背景中提取工具和目标对象。（ym:即通过深度值来做目标分割。）

图6。人类演示的时空解析。(a)使用KinectFusion，我们首先重建3D场景，包括工具和目标对象。(b)提供人类示范使用工具的RGB-D录象带，(d)

工具和目标对象的三维跟踪。跟踪工具和目标对象的三维网格，使算法能够感知相互作用，检测状态变化。在本文中，我们使用了一种现成的基于点云库[31]的三维跟踪算法。该算法首先利用RGBD视频的第一深度帧进行目标分割，然后调用粒子滤波[26]对每段目标进行跟踪，逐帧估计目标的三维方向(图6 (c))。

3d手跟踪。利用三维骨架跟踪[34]实现手部位置和方位的三维跟踪。骨骼跟踪输出全身骨骼，包括各个关节的三维位置和方向。为了不失一般性，我们假设相互作用的手是右手。

接触觉察。对于跟踪的三维手姿态/工具/目标对象，我们通过测量它们之间的欧氏距离来进行触摸检测(图6 (d))。人的手和工具之间的触摸检测定位功能基础的三维位置，而工具和目标对象之间的触摸检测生成功能基础的三维位置。

4 实验

在本节中，我们首先介绍我们的数据集，并评估我们的算法在三个方面:(i)学习物理概念;(2)识别工具;(iii)想象工具的使用。

4.1 数据集

我们设计了TTU（Tool & Tool-Use）数据集，用于评估工具和面向任务对象的识别。数据集包含一组静态3D对象实例，以及一组工具使用的人工演示。

3D对象实例包括452个静态3D网格，范围从典型工具、家用物品和石头。其中一些对象实例如图7所示。一些典型的动作如图5所示。每个动作包含一系列(3-4秒)完整的身体骨架。3D网格和人的动作都由消费者级别的RGB-D传感器捕获。

图7。“数据集”中的工具实例示例。(a)典型工具(b)家用物品(c)天然石头。

4.2 学习物理概念

我们首先通过比较人类判断来评估我们的学习算法。40名受试者为4个不同的任务标注了基本物理概念，标注的基本物理概念分布如图8所示。有趣的是，人类受试者有相对一致的常识，那就是力和动量对于劈开坚果很有用，而压力对于劈开木头很重要。我们的算法学习了非常相似的物理概念，如图8所示的红色条。对于铲土和刷墙这两个任务，虽然人类的判断比较模糊，但是我们的算法仍然会产生相对相似的学习物理概念的结果。

图8。学习使用工具的基本物理概念。红色条代表人类对每个任务的基本物理概念的判断。蓝色条代表我们的算法学习到的不同物理概念的权重系数。

图9给出了一个学习坚果物理概念的例子。根据图9 (a)中10个候选工具的一组RGB-D图像和图9 (b)中对工具使用的人类演示，我们的算法想象出如图9 (c)所示的不同类型的工具使用，并根据不同的物理概念对它们进行排序。通过假设人类示范是理性和算法,我们学习算法选择物理概念通过最小化的数量违规的左边的红色区域Fig.9 (c)。例如,力的情节显示排名对工具和工具的使用对力量应用于功能的基础。人类演示产生的力(黑色竖线)比大多数工具使用产生的力要大，因此接近最佳状态。图9 (c)右边的实例是采样的工具和工具使用情况。红色的是表现优于人类演示的情况，灰色的是表现低于人类演示的情况。

图9。学习物理概念从单一的人类演示，以破解一个坚果。(a) RGB-D图像给出一组候选工具。(b)人类对工具使用的示范假定是接近最佳的。(c)该算法根据不同的物理概念对工具使用的所有样本进行分类。黑色的竖条表示人类对工具使用的演示，而红色区域和灰色区域表示在接受人类演示时表现更好或更差的样本。我们展示了六种抽样的工具和工具使用，其中三种的表现优于人类演示，其他的表现低于人类演示。在这个例子中，力被选择为基本的物理概念，因为在这种情况下，有最小数量的样本违反了理性选择假设。

4.3 推断工具和工具的使用

在图2中，我们说明了推断工具和工具使用三个任务的定性结果，即劈木头、铲土和粉刷墙壁。通过三种场景的评估:(a)典型工具，(b)家居用品，(c)天然石材，我们对学习模型的泛化能力感兴趣。

4.3.1 识别工具

我们让四名受试者对如图2所示的候选工具进行排序。对于图10中的劈柴任务，我们根据人类受试者的平均排名(x轴)和算法生成的排名(y轴)绘制候选工具。

这三列显示了不同的测试场景。我们可以看到，我们从典型的工具使用案例中学习到的模型，可以很容易地推广到在新的情况下识别工具，如家用物品和天然石材。在这三种场景中，算法排序和人员排序之间的相关性是一致的。有时，该算法在石头场景中效果更好。

三行代表不同程度的工具使用:(a)随机使用工具排序通过计算随机使用工具的预期得分来评价工具的排序;(b)通过计算我们的算法推断出的最佳工具使用情况来评估工具的排名;(c)最佳使用工具排名根据人类受试者对工具的最佳使用情况来评估工具的排名。表1总结了人类排序和算法排序在三个任务上的相关性。

图10。识别砍木头的工具。分散显示了根据我们的算法(y轴)相对于人类受试者(x轴)的平均排名的候选工具。这三列显示了不同的测试场景，而这三行表示通过推理算法想象的不同的工具使用级别。

表1。刀具识别的准确性。此表显示了我们算法生成的排名与人类受试者注释的平均排名之间的相关性。这三行表示我们的推理算法所设想的不同的工具使用级别。候选工具的定性和定量排序结果分别如图2和图10所示。

4.3.2 想象工具使用

我们还从人类行为A、启示基础BA和功能基础BF三个方面对想象工具的使用进行了评价。

对人类行为的评价是基于行为方向的分类，即上、下、前、后、左、右。在所有实验中，该问题的分类准确率为89:3%。该算法能可靠地将坚果的打散行为分类为down。但在对铲土行为的分类上存在一些歧义，因为左右在物理上是相似的。

图11给出了想象可视性基础BA和功能性基础BF的三个示例。与人工标注相比，该算法在启示基BA和功能基BF上分别找到了非常相似的位置。在表2中，我们展示了我们的算法所想象的位置与被人类主体以厘米为单位标注的位置之间的3D距离。

图11。比较人类预测的工具使用(a)和算法想象的工具使用(b)铲土。

表2。想象工具使用的启示/功能基础(BA和BF)的错误。该表显示了我们的算法所想象的位置与人类受试者标注的位置之间的3D距离。候选样本工具的具体位置如图11所示。

5 讨论

在本文中，我们提出了一个新的面向任务的对象建模、学习和识别框架。任务对象以空间、时间和因果分析图表示，包括:1)对象的空间分解和与想象人体姿态的三维关系;ii)人类动作的时间位姿序列;(三)对象和行为产生的因果效应(对目标对象的物理量)。在这个推测的表象中，只有物体是可见的，其他所有的组成部分都是想象中的暗物质。这个框架包含了其他传统的问题，例如:(a)基于外观和几何形状的物体识别;(b)基于姿态的动作识别;(c)机器人技术中的对象操作和启示。我们认为，对象，特别是人造对象，是为广泛意义上的各种任务而设计的[29,4,35,2]，因此在面向任务的框架中研究它们是很自然的。

下面我们简要回顾认知科学、神经科学和视觉机器人学文献中的相关工作。

5.1 相关工作

认知科学和心理学。工具的感知和工具的使用已经在认知科学和心理学中得到了广泛的研究。动物使用工具的惊人能力激发了我们的工作[11,5,47,4,35,32]。例如，Santos等人[33]训练了两种猴子，让它们在涉及物理概念的各种条件下从两根手杖中选择一根去获取食物。[46]报道说，新喀里多尼亚的乌鸦可以把一根笔直的金属丝弯曲成一个钩子，并用它成功地从一根垂直的管子里提起一个盛有食物的桶。这些发现表明，动物可以使用领域一般机制来推理工具的功能特性、物理力量和因果关系。同时，人类工具设计的历史反映了人类智能发展的历史[22,9,10,42]。认知科学中的一个论点是，直觉物理模拟引擎可能已经通过进化连接到大脑中[3,39,41]，这对我们理解物体和场景的能力至关重要。
神经科学。神经科学研究[20,8,7]在fMRI实验中发现，相对于人脸，工具可以选择性地激活doral通路中的皮层区域，这表明物体操作与物体识别的路径和机制非常不同。因此，对这一机制的研究将为计算机视觉的研究提供新的方向。
机器人技术和人工智能。还有大量的工作是研究机器人技术和人工智能中的工具操作。一些相关工作侧重于学习可视性部件或功能对象检测器，例如[37,44,23,38,30,15,43,24,25]。然而，他们仍然在学习高级的外观特征，或者通过启示/功能线索选择，或者通过人类演示[1]，而不是推理潜在的物理概念。
计算机视觉。在计算机视觉领域，最相关的研究是最近的一项研究，该研究通过符合想象的人体姿态来识别功能性物体(如椅子)[14,36,12,19,45,52,21,18]和功能性场景(如卧室)[49,13,6,16]。整合基于物理模型的思想已经被用于计算机视觉中的目标跟踪[40,28]和场景理解[50,51]。但是我们的工作已经超出了我们的能力范围。