深度学习不是万灵药！神经网络3D建模其实只是图像识别？

新智元创作者

撰稿：曾晓淇、大德

【新智元编者按】随著广度自学的红极一时，很多科学研究都致力怎样从宣传册相片聚合3D数学模型。但上周几项科学研究说明，基本上大部份如前所述广度数学数学模型的3D中复建组织工作，事实上并并非复建，而要影像展开分类。广度自学并并非LX1的！

广度自学并并非Exarhos。

近些年，随著广度自学的红极一时，很多科学研究攻下了怎样从宣传册相片聚合3D数学模型。从这类各方面或许再度校正了广度自学的奇妙——doing almost the impossible。

但，前段时间一则该文却为此明确提出了批评：基本上大部份那些如前所述广度数学数学模型的3D复建的组织工作，事实上并并非展开复建，而要展开影像展开分类。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

arXiv门牌号：

https://arxiv.org/pdf/1905.03678.pdf

在这项组织工作中，科学研究人员建立了两种不同的方法分别执行影像展开分类和检索。那些简单的基线方法在定性和定量上都比最先进的方法产生的结果要更好。

正如伯克利马毅教授评价：

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

基本上大部份那些如前所述广度数学数学模型的3D复建的组织工作（层出不穷令人眼花缭乱的State of the Art top conferences 论文），只不过还比不上稍微认真一点的nearest neighbor baselines。没有任何工具或算法是Exarhos。

至少在三维复建问题上，没有把几何关系条件严格用到位的算法，都是不科学的——根本谈不上可靠和准确。

并非3D复建，而而已影像展开分类？

如前所述对象(object-based)的单视图3D复建任务是指，在给定单个影像的情况下聚合对象的3D数学模型。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

如上图所示，推断一辆摩托车的3D结构需要一个复杂的过程，它结合了低层次的影像线索、有关部件结构排列的知识和高层次的语义信息。

科学研究人员将这种情况称为复建和识别：

重构意味着使用纹理、阴影和透视效果等线索对输入影像的3D结构展开推理。

识别相当于对输入影像展开展开分类，并从数据库中检索最合适的3D数学模型。

虽然在其它文献中已经明确提出了各种体系结构和3D表示，但用于单视图3D理解的现有方法都使用编码器——解码器结构，其中编码器将输入影像映射到潜在表示，而解码器执行关于3D的非平凡(nontrivial)推理，并输出空间的结构。

为了解决这一任务，整个网络既要包含高级信息，也要包含低级信息。

而在这项组织工作中，科学研究人员对目前最先进的编解码器方法的结果展开了分析，发现它们主要依靠识别来解决单视图3D复建任务，同时仅显示有限的复建能力。

为了支持这一观点，科学研究人员设计了两个纯识别基线：一个结合了3D形状聚类和影像展开分类，另一个执行如前所述影像的3D形状检索。

在此基础上，科学研究人员还证明了即使不需要明确地推断出物体的3D结构，现代卷积网络在单视图3D复建中的性能是可以超越的。

在很多情况下，识别基线的预测不仅在数量上更好，而且在视觉上看起来更有吸引力。

科学研究人员认为，卷积网络在单视图3D复建任务中是主流实验程序的这类各方面的结果，包括数据集的组成和评估协议。它们允许网络找到一个快捷的解决方案，这恰好是影像识别。

纯粹的识别方法，性能优于先进的数学数学模型

实验如前所述现代卷积网络，它可以从一张影像预测出高分辨率的3D数学模型。

方法的展开分类是根据它们的输出表示对它们展开展开分类：体素网格(voxel grids)、网格（meshes）、点云和广度图。为此，科学研究人员选择了最先进的方法来覆盖主要的输出表示，或者在评估中已经清楚地显示出优于其他相关表示。

科学研究人员使用八叉树聚合网络(Octree Generating Networks，OGN)作为直接在体素网格上预测输出的代表性方法。

与早期使用这种输出表示的方法相比，OGN通过使用八叉树有效地表示所占用的空间，可以预测更高分辨率的形状。

还评估了AtlasNet作为如前所述表面的方法的代表性方法。AtlasNet预测了一组参数曲面，并在操作这种输出表示的方法中构成了最先进的方法。它被证明优于直接聚合点云作为输出的唯一方法，以及另一种如前所述八叉树的方法。

最后，科学研究人员评估了该领域目前最先进的Matryoshka Networks。该网络使用由多个嵌套广度图组成的形状表示，，那些广度图以体积方式融合到单个输出对象中。

对于来自AtlasNet的如前所述IoU的表面预测评估，科学研究人员将它们投影到广度图，并进一步融合到体积表示。对于如前所述表面的评估指标，使用移动立方体算法从体积表示中提取网格。

科学研究人员实现了两个简单的基线，仅从识别的角度来处理问题。

第一种方法是结合影像展开分类器对训练形状展开聚类；第二个是执行数据库检索。

在聚类各方面的基线中，使用K-means算法将训练形状聚类为K个子类别。

在检索基线各方面，嵌入空间由训练集中大部份3D形状的两两相似矩阵构造，通过多维尺度将矩阵的每一行压缩为一个低维描述符。

科学研究人员根据平均IoU分数对大部份方法展开标准比较。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

科学研究人员发现，虽然最先进的方法有不同体系结构的支持，但在执行的时候却非常相似。

有趣的是，检索基线是一种纯粹的识别方法，在均值和中位数IoU各方面都优于大部份其他方法。简单的聚类基线具有竞争力，性能优于AtlasNet和OGN。

但科学研究人员进一步观察到，一个完美的检索方法(Oracle NN)的性能明显优于大部份其他方法。值得注意的是，大部份方法的结果差异都非常大(在35%到50%之间)。

这意味着仅依赖于平均IoU的定量比较不能提供这种性能水平的全貌。为了更清楚地了解那些方法的行为，科学研究人员展开了更详细的分析。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

每类mIoU比较。

总的来说，那些方法在不同的类之间表现出一致的相对性能。检索基线为大多数类聚合最佳重构。大部份类和方法的方差都很大。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

mIoU与每个类的训练样本数量。

科学研究人员发现一个类的样本数量和这个类的mIoU分数之间没有相关性。大部份方法的相关系数c均接近于零。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

定性的结果

聚类基线产生的形状质量与最先进的方法相当。检索基线通过设计返回高保真形状，但细节可能不正确。每个样本右下角的数字表示IoU。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

左：为所选类分配IoU。如前所述解码器的方法和显式识别基线的类内分布是类似的。 Oracle NN的发行版在大多数类中都有所不同。右图：成对Kolmogorov-Smirnov检验未能拒绝两个分布的无效假设的类数的热图。

科学研究中的一些问题

参照系的选择

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

我们尝试使用视角预测网络对聚类基线方法展开扩展，该方法将重点回归摄像头的方位角和仰角等规范框架，结果失败了，因为规范框架对每个对象类都有不同的含义，即视角网络需要使用类信息来解决任务。我们对检索基线方法展开了重新训练，将每个训练视图作为单独样本来处理，从而为每个单独的对象提供空间。

量度标准

平均IoU通常在基准测试中被用作衡量单视图影像复建方法的主要量化指标。如果将其作为最优解的唯一衡量指标，就可能会出现问题，因为它在对象形状的质量值足够高时才能有效预测。如果该值处于中低水平，说明两个对象的形状存在显着差异。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

如上图所示，将一个汽车数学模型与数据集中的不同形状的对象展开了比较，只有 IoU分数比较高（最右两张图）时才有意义，即使IoU=0.59，两个目标可能都是完全不同的物体，比较相似度失去了意义。

倒角距离（Chamfer distance）

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

如上图所示，两者目标椅子与下方的椅子的下半部分完美匹配，但上半部分完全不同。但根据得分，第二个目标要好于第一个。由此来看，倒角距离这个量度会被空间几何布局显著干扰。为了可靠地反映真正的模型复建性能，好的量度应该具备对几何结构变化的高鲁棒性。

F-score

我们绘制了以观察者为中心的复建方式的F分数的不同距离阈值d（左）。在 d =复建体积边长的2％的条件下，F分数绝对值与当前范围的 mIoU分数相同，这并不能有效反映数学模型的预测质量。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

因此，我们建议将距离阈值设为复建数学模型体积边长的1％以下来考察F值。如上图（右）中所示，在阈值d = 1％时，F分数为0.5以上。只有一小部分数学模型的形状被精确构建出来，预设任务仍然远未解决。我们的检索基线方法不再具有明显的优势，进一步说明使用纯粹的识别方法很难解决这个问题。

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

现有的如前所述CNN的方法在精度上表现良好，但丢失了目标的部分结构

未来展望

在这项科学研究中，科学研究人员通过复建和识别来推断单视图3D复建方法的范围。

组织工作展示了简单的检索基线优于最新、最先进的方法。分析说明，目前最先进的单视图3D复建方法主要用于识别，而并非复建。

科学研究人员确定了引起这种问题的一些因素，并明确提出了一些建议，包括使用以视图为中心的坐标系和鲁棒且信息量大的评估度量(F-score)。

另一个关键问题是数据集组合，虽然问题已经确定，但没有处理。科学研究人员正努力在以后的组织工作中纠正这一点。

参考链接：

https://arxiv.org/pdf/1905.03678.pdf

深度学习不是万灵药！神经网络3D建模其实只是图像识别？

新智元创作者

相关文章

微信