Point Transformer(ICCV2021)-目标检测论坛-AI for CV-点头深度学习网站

Point Transformer(ICCV2021)

image

论文链接:https://arxiv.org/pdf/2012.09164v2

代码链接:https://github.com/Pointcept/Pointcept ; https://github.com/isl-org/Open3D-ML

摘要

Point Transformer 是2021年ICCV提出的基于自注意力机制的3D点云处理模型,旨在解决传统点云处理方法(如基于投影或体素的方法)中几何信息丢失、计算效率低的问题。其核心创新在于将局部自注意力机制位置编码结合,构建了一种高效的点云特征提取框架。

  • 任务表现:在语义场景分割(如S3DIS数据集)中,Point Transformer以70.4%的mIoU刷新了当时的最优性能,首次突破70%阈值;

  • 设计优势:通过局部邻域内的注意力计算(如KNN或ball query)降低计算复杂度,同时引入相对位置编码,增强模型对点云几何结构的捕捉能力;

  • 通用性:支持分类、分割、场景解析等多任务,为后续点云Transformer模型(如Point Transformer V3)奠定基础。

主要贡献

  1. 局部自注意力机制

    • 提出 Point Transformer Layer,通过局部邻域(如KNN或ball query)限制注意力计算范围,解决全局注意力计算量大的问题。每个点的注意力仅作用于其邻近点,显著提升效率;

    • 采用 向量注意力(Vector Attention),通过特征差值\((\phi(x_i)-\psi(x_j))\)计算注意力权重,增强对点间关系的建模,优于传统标量点积注意力。

  2. 位置编码设计

    • 引入 相对位置编码,通过MLP(θ函数)将点坐标差异\(p_i-p_j\)映射为位置偏移量\(\delta\),并与特征向量融合,提升对几何信息的敏感性;

    • 在注意力权重和值的计算中均加入位置信息,避免传统方法仅依赖绝对坐标的局限性。

  3. 层级化U-Net架构

    • 编码器-解码器结构:通过 Transition Down(降采样)和 Transition Up(上采样)模块实现多尺度特征融合,模拟CNN的多层感受野;

    • FPS采样与KNN分组:编码阶段使用最远点采样(FPS)选择关键点,解码阶段通过三线性插值恢复细节,结合跳跃连接保留局部信息。

  4. 高效性与通用性

    • 在保持轻量化的同时(参数量显著低于传统3D卷积网络),支持大规模点云处理(如自动驾驶场景);

    • 模型在室内场景(ScanNet)和物体部件分割(ShapeNet)任务中均表现优异,验证了其跨任务泛化能力。

网络结构

image

Point Transformer的网络架构基于U-Net,包含编码器(特征提取)和解码器(特征恢复)两部分,核心模块如下:

 编码器(特征提取)

  1. Transition Down模块
  • FPS采样:从输入点云中选取关键点(如从N点采样至N/4点),保证空间分布的均匀性;
  • KNN分组:对每个关键点,查找其邻近的K个点(如K=16)作为局部邻域;
  • 特征聚合:邻域特征经MLP、BatchNorm、ReLU后,通过最大池化生成关键点特征。

     2. Point Transformer Block

  • 局部自注意力:对每个点的邻域计算注意力权重,公式为:\(y_i=\sum_{x_j\in\mathcal{X}(i)}\rho\left(\gamma(\phi(x_i)-\psi(x_j)+\delta)\odot(\alpha(x_j)+\delta)\right.\),其中\(\delta=\theta(p_i-p_j)\)为位置编码。
  • 残差连接:每个Block包含两个线性层和残差连接,增强训练稳定性。

解码器(特征恢复)

Transition Up模块

  • 三线性插值:将低分辨率特征映射回高分辨率点云,结合编码器阶段的跳跃连接,融合多尺度信息;
  • 特征拼接:插值后的特征与对应编码器特征拼接,通过MLP生成最终输出。

任务头

  • 分类任务:全局最大池化后接MLP输出类别概率;
  • 分割任务:解码器输出逐点特征,通过MLP预测语义标签。

实验结果

image

image

总结

  1. 高效局部注意力:通过邻域限制和向量注意力设计,显著降低计算复杂度(如S3DIS任务中推理速度达62 Hz);

  2. 几何感知能力强:相对位置编码与特征差值结合,提升对点云结构的建模能力;

  3. 多任务通用性:统一的U-Net架构适配分类、分割等多种任务,在室内场景中表现尤为突出。

请登录后发表评论

    没有回复内容