[SETR] Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Resource

FCN 한계.PNG

SETR(“SE”mantic + “TR”ansformer)
- Encoder에 pure Transformer만을 사용한 모델을 제안.
- CNN 기반 모델과 다르게 pooling, stride와 같은 이미지/feature down-sampling 없이Transformer encoder를 이용하여 global context를 학습하는 새로운 접근 방법을 제안.
- Transformer 모델은 이미 NLP분야에서 성능을 입증하였고, ViT(Vision Transformer)를 통해 Image Classification에서 좋은 성능을 보였다. 이는 이미지 특징 추출을 위해 stacked convolution 구조를 통한 공간 정보는 압축(손해)하며 global context를 학습한다는 종래 방식이 필수가 아님을 증명하였다. (Translation Equivariance + Locality를 Inductive Bais로 하는 Conv. 방식이 Image 분야의 가장 효율적이라는 기존 방법에서 탈피)

Transformer Encoder를 적용한 새로운 semantic segmentation 구조를 제안 (Encoder-Decoder -> Sequence to Sequence)
다양한 복잡도를 가진 Decoder를 적용하여 Self Attention의 특징 추출 효과에 대한 광범위한 해석 수행함.
SOTA 성능 달성 (ADE20K: 50.28% mIoU Pascal Context: 55.83% mIoU)

SETR(”SE”gmentation + “TR”ansformers)
- 모델은 크게 Sequentialization → Transformer → Decoder로 구성되어있으며, Decoder는 3가지 방식을 제안한다.

Transformer 모델을 사용하기 위해 $H \times W \times 3$ resolution의 이미지를 $C$ hidden channel size를 가지는 $L$개의 sequential vector 형태로 re-representation 함.
본 논문에서는 ViT와 동일하게 입력 영상을 $16 \times 16$ 개의 patch로 분할한다. 각각의 patch를 flatten 한 후 linear projection하여 $C$차원으로 축소하여 결과 적으로 1차원 patch embedding의 sequence로 변환한다. (L X C, L = H/16 X W/16)