论文链接:https://arxiv.org/pdf/1711.06396.pdf
代码链接:https://github.com/qianguih/voxelnet
摘要
本文提出了一种名为VoxelNet的创新型端到端训练深度架构,用于基于点云的3D检测。VoxelNet能够直接在稀疏的3D点上运行,有效地捕捉3D形状信息,避免了手工特征工程带来的信息瓶颈。实验结果表明,VoxelNet在KITTI数据集上的车辆、行人和骑行者检测任务中实现了最先进的性能。
主要贡献
- 新颖架构:提出了一种新的端到端可训练深度架构VoxelNet,该架构直接操作稀疏的3D点并避免了手工特征工程带来的信息瓶颈。
- 高效实现:提出了一种高效实现VoxelNet的方法,该方法充分利用了点云的稀疏性和体素网格上的并行处理。
- 实验验证:在KITTI基准测试上进行了实验,结果显示VoxelNet在基于LiDAR的汽车、行人和骑行者检测基准测试中实现了最先进的性能。
网络结构
VoxelNet的核心架构由三个模块组成:特征学习网络(Feature Learning Network)、卷积中间层(Convolutional Middle Layers)和区域提议网络(Region Proposal Network, RPN),整体流程如图2所示。
1、特征学习网络
特征学习网络主要进行逐体素编码,分为5个步骤:体素分块(Voxel Partition),点云分组(Grouping),随机采样T(Random Sampling),多层的体素特征编码(Stacked Voxel Feature Encoding)(堆叠多个VEF网络,先逐点进行编码(全连接层),然后逐元素最大池化得到聚合的局部特征,再把这两个进行拼接得到逐点级联特征,堆叠VFE层对体素内的点交互进行编码,使最终特征表示能够学习描述性形状信息,最后得到逐体素的编码,),稀疏张量表示(Sparse Tensor Representation)。
体素分块(Voxel Partition):对输入点云进行体素化。使用相同尺寸的立方体对其进行划分,使用一个深度、高度和宽度分别为(D,H,W)的大立方体表示输入点云,每个体素的深高宽为(\(V_{D}\),\(V_{H}\),\(V_{W}\)) ,则整个数据的三维体素化的结果在各个坐标上生成的体素格(voxel grid)的个数为:\((\frac{D}{v_D},\frac{H}{v_H},\frac{W}{v_W})\)
点云分组(Grouping):将点分配到对应体素中
随机采样T(Random Sampling):由于点云数据近密远疏,按照这种方法分组出来的单元会存在有些体素格点很多,有些格子点很少的情况,64线的激光雷达一次扫描包含差不多10万个点,全部处理需要的计算力和内存都很高,而且高密度的点势必会给神经网络的计算结果带来偏差。所以,该方法在这里插入了一层随机采样,对于每一个体素格,随机采样固定数目的点(如每体素最多采样35个点)。
体素特征编码:
-
逐点特征提取:对每个点通过全连接层(FC)映射到高维空间。
-
局部聚合特征:通过最大池化(MaxPool)提取体素内全局特征。
-
特征拼接:将逐点特征与聚合特征拼接,形成体素级特征表示。
堆叠多个VFE层可逐步提取复杂形状信息,例如VFE-1(输入7维,输出32维)和VFE-2(输出128维)
稀疏张量表示:上述得到的体素特征可以使用一个4维的稀疏张量来表示。
2、卷积中间层
通过3D卷积(Conv3D)对体素特征进行空间上下文聚合,逐步扩大感受野。例如,使用多个卷积块处理稀疏张量,输出高维体积特征。
Conv3D(128, 64, 3,(2,1,1), (1,1,1))
Conv3D(64, 64, 3, (1,1,1), (0,1,1))
Conv3D(64, 64, 3, (2,1,1), (1,1,1))
如输入图像尺寸为(128*10*400*352)经过三层的3D卷积后输出维度为(64*2*400*352)。在送入RPN之前对特征进行整合,变成(128*400*352)。
3、区域提议网络(RPN)
结构:以中间卷积层的输出特征图为输入。包含三个卷积块:每个块的第一层通过stride=2将feature map的尺寸降低一半,然后是一系列stride=1,padding=1的3×3卷积在每个卷积层后,应用BN和ReLU操作。将3个block的输出都上采样到一个统一的size,然后拼接到一起,再映射为两个学习目标:回归图和概率得分图。
损失函数:结合分类损失(交叉熵)和回归损失(平滑L1),加权计算总损失。
实验结果
总结
VoxelNet通过直接在稀疏3D点上操作来捕捉3D形状信息,有效地解决了手工特征工程的瓶颈问题,并且在KITTI数据集上的检测任务中表现出色。
没有回复内容