Deep Hough Voting for 3D Object Detection in Point Clouds（ICCV2019）

4个月前发布

590

论文链接：https://arxiv.org/pdf/1904.09664v2

代码链接：https://github.com/facebookresearch/votenet；https://github.com/open-mmlab/mmdetection3d

摘要

VoteNet 是2019年提出的基于点云的3D目标检测算法，旨在解决传统方法依赖2D检测器或体素化导致几何信息丢失的问题。其核心创新在于将霍夫投票（Hough Voting）机制与深度学习结合，通过端到端优化的方式直接处理原始点云数据，无需依赖RGB信息或体素化操作。VoteNet利用PointNet++提取点云特征，生成指向物体中心的虚拟投票点，并通过聚类和聚合生成高质量的3D候选框。实验表明，VoteNet在ScanNet和SUN RGB-D两个数据集上超越现有方法，仅使用几何信息的 VoteNet 明显优于使用 RGB 和几何甚至多视图 RGB 图像的现有技术。

主要贡献

深度霍夫投票的端到端框架：将传统霍夫投票改进为可微分架构，通过神经网络自动学习投票偏移量，解决了传统方法依赖手工特征和离线代码本的问题。投票机制使稀疏点云中的前景点向目标中心偏移，形成聚类，增强上下文聚合能力。
纯几何信息的3D检测性能突破：介绍了一个以点云为中心的三维检测框架，该框架直接处理原始数据，无论是在体系结构还是在对象方案中都不依赖于任何二维检测器。在仅使用点云几何信息的条件下，VoteNet在ScanNet和SUN RGB-D数据集上达到SOTA性能，验证了投票机制对远距离目标中心预测的有效性。
基于点的局部特征提取网络：借鉴了PointNet++，通过采用一种分层深层网络来直接处理点云数据。这种方法减少了将点云转化为常规结构的需求，有效避免了在量化过程中可能出现的信息丢失。

网络结构

点云特征提取（Backbone）
- 使用PointNet++作为主干网络，通过多级Set Abstraction层对点云进行采样和局部特征提取，生成种子点（Seed Points）及其特征。每个种子点包含坐标和语义特征信息。
投票模块（Voting Module）
- 每个种子点通过全连接网络预测偏移量（指向目标中心的XYZ位移）和特征偏移，生成虚拟投票点。背景点的偏移量通常较小或无意义，而前景点偏移量集中于目标中心，形成聚类。
投票聚类（Clustering）
- 采用最远点采样（FPS）选取初始聚类中心，再通过半径搜索聚合邻近投票点。聚类结果通过PointNet提取全局特征，生成候选框参数（位置、尺寸、方向）。
候选框优化（Proposal Module）
- 对每个聚类进行特征聚合，输出物体置信度、边界框回归参数（7自由度）和语义分类得分。损失函数包含投票偏移回归（Smooth L1 Loss）、物体置信度分类（Focal Loss）和语义分类（交叉熵损失）