Deep Hough Voting for 3D Object Detection in Point Clouds(ICCV2019)-目标检测论坛-AI for CV-点头深度学习网站

Deep Hough Voting for 3D Object Detection in Point Clouds(ICCV2019)

image

论文链接:https://arxiv.org/pdf/1904.09664v2

代码链接:https://github.com/facebookresearch/votenet;https://github.com/open-mmlab/mmdetection3d

摘要

VoteNet 是2019年提出的基于点云的3D目标检测算法,旨在解决传统方法依赖2D检测器或体素化导致几何信息丢失的问题。其核心创新在于将霍夫投票(Hough Voting)机制与深度学习结合,通过端到端优化的方式直接处理原始点云数据,无需依赖RGB信息或体素化操作。VoteNet利用PointNet++提取点云特征,生成指向物体中心的虚拟投票点,并通过聚类和聚合生成高质量的3D候选框。实验表明,VoteNet在ScanNet和SUN RGB-D两个数据集上超越现有方法,仅使用几何信息的 VoteNet 明显优于使用 RGB 和几何甚至多视图 RGB 图像的现有技术。

主要贡献

  1. 深度霍夫投票的端到端框架:将传统霍夫投票改进为可微分架构,通过神经网络自动学习投票偏移量,解决了传统方法依赖手工特征和离线代码本的问题。投票机制使稀疏点云中的前景点向目标中心偏移,形成聚类,增强上下文聚合能力。
  2. 纯几何信息的3D检测性能突破:介绍了一个以点云为中心的三维检测框架,该框架直接处理原始数据,无论是在体系结构还是在对象方案中都不依赖于任何二维检测器。在仅使用点云几何信息的条件下,VoteNet在ScanNet和SUN RGB-D数据集上达到SOTA性能,验证了投票机制对远距离目标中心预测的有效性。
  3. 基于点的局部特征提取网络:借鉴了PointNet++,通过采用一种分层深层网络来直接处理点云数据。这种方法减少了将点云转化为常规结构的需求,有效避免了在量化过程中可能出现的信息丢失。

网络结构

image

  1. 点云特征提取(Backbone)

    • 使用PointNet++作为主干网络,通过多级Set Abstraction层对点云进行采样和局部特征提取,生成种子点(Seed Points)及其特征。每个种子点包含坐标和语义特征信息。

  2. 投票模块(Voting Module)

    • 每个种子点通过全连接网络预测偏移量(指向目标中心的XYZ位移)和特征偏移,生成虚拟投票点。背景点的偏移量通常较小或无意义,而前景点偏移量集中于目标中心,形成聚类。

  3. 投票聚类(Clustering)

    • 采用最远点采样(FPS)选取初始聚类中心,再通过半径搜索聚合邻近投票点。聚类结果通过PointNet提取全局特征,生成候选框参数(位置、尺寸、方向)。

  4. 候选框优化(Proposal Module)

    • 对每个聚类进行特征聚合,输出物体置信度、边界框回归参数(7自由度)和语义分类得分。损失函数包含投票偏移回归(Smooth L1 Loss)、物体置信度分类(Focal Loss)和语义分类(交叉熵损失)

实验结果

image

image

image

总结

  • 高效稀疏计算:直接处理原始点云,避免体素化或投影导致的信息损失。

  • 鲁棒的上下文聚合:投票机制显著改善远距离目标(如桌子、浴缸)的检测效果。

  • 多场景适应性:在复杂室内场景(如杂乱房间)中仍能准确区分相邻物体(如沙发与椅子)。

 

请登录后发表评论

    没有回复内容