Point Transformer（ICCV2021）

4个月前发布

410

论文链接：https://arxiv.org/pdf/2012.09164v2

代码链接：https://github.com/Pointcept/Pointcept ; https://github.com/isl-org/Open3D-ML

Point Transformer 是2021年ICCV提出的基于自注意力机制的3D点云处理模型，旨在解决传统点云处理方法（如基于投影或体素的方法）中几何信息丢失、计算效率低的问题。其核心创新在于将局部自注意力机制与位置编码结合，构建了一种高效的点云特征提取框架。

局部自注意力机制
- 提出 Point Transformer Layer，通过局部邻域（如KNN或ball query）限制注意力计算范围，解决全局注意力计算量大的问题。每个点的注意力仅作用于其邻近点，显著提升效率；
- 采用 向量注意力（Vector Attention），通过特征差值\((\phi(x_i)-\psi(x_j))\)计算注意力权重，增强对点间关系的建模，优于传统标量点积注意力。
位置编码设计
- 引入 相对位置编码，通过MLP（θ函数）将点坐标差异\(p_i-p_j\)映射为位置偏移量\(\delta\)，并与特征向量融合，提升对几何信息的敏感性；
- 在注意力权重和值的计算中均加入位置信息，避免传统方法仅依赖绝对坐标的局限性。
层级化U-Net架构
- 编码器-解码器结构：通过 Transition Down（降采样）和 Transition Up（上采样）模块实现多尺度特征融合，模拟CNN的多层感受野；
- FPS采样与KNN分组：编码阶段使用最远点采样（FPS）选择关键点，解码阶段通过三线性插值恢复细节，结合跳跃连接保留局部信息。
高效性与通用性
- 在保持轻量化的同时（参数量显著低于传统3D卷积网络），支持大规模点云处理（如自动驾驶场景）；
- 模型在室内场景（ScanNet）和物体部件分割（ShapeNet）任务中均表现优异，验证了其跨任务泛化能力。

Point Transformer的网络架构基于U-Net，包含编码器（特征提取）和解码器（特征恢复）两部分，核心模块如下：

2. Point Transformer Block

局部自注意力：对每个点的邻域计算注意力权重，公式为：\(y_i=\sum_{x_j\in\mathcal{X}(i)}\rho\left(\gamma(\phi(x_i)-\psi(x_j)+\delta)\odot(\alpha(x_j)+\delta)\right.\)，其中\(\delta=\theta(p_i-p_j)\)为位置编码。
残差连接：每个Block包含两个线性层和残差连接，增强训练稳定性。