[SOLOv2] SOLOv2: Dynamic and Fast Instance Segmentation - NeurIPS 2020

Resource

SOLO[]는 별도의 bounding box prediction 및 pixel간의 pairwise relation 정보 없이 instance mask를 구하는 framework으로 다음과 같은 한계가 존재한다.
- Inefﬁcient mask representation and learning
- 좋은 퀄리티의 mask predictions을 얻기 위해 resolution이 충분하지 않음.
- 느린 mask NMS 속도
본 논문에서는 SOLO architecture를 개선을 목표로 convolution kernel learning 및 이를 이용한 feature learning기법과 inference 속도 개선을 위한 fast NMS 기법을 적용한 SOLOv2 구조를 제안한다.

Untitled

SOLO architecture의 경우 $S^2$ channel의 instance mask를 생성한다. 입력 영상에 대해 FPN(feature pyramid network)을 이용하여 $[H \times W \times E]$ dimension의 feature를 추출 후 이를 다시 $S^2$ channel로 변환하는 과정을 거친다.
Pyramid feature중 특정 level에서 추출한 feature가 주어질 때 $F \in \mathbb{R}^{H \times W \times E}$ 위 과정을 수식으로 표현하면 다음과 같다.

$$ M_{i,j}=G_{i,j}*F $$

여기서 $G_{i,j}\in\mathbb{R}^{1\times1\times E}$는 $(i,j)$ grid에 적용되는 convolution kernel를 나타낸다. $m_{i,j}\in \mathbb{R}^{H\times W}$은 최종 mask이며 $(i,j)$ grid에 하나의 Instance의 중심좌표가 포함된 경우를 나타낸다.
SOLO model은 inference/training 과정에서 위 연산 과정을 거치는데, memory를 필요로 하고 특히나 큰 resolution에 대해서는 높은 computation cost가 필요한 문제가 있다.
대부분의 경우에서 영상안의 instance는 분리되어 있기 때문에 mask $M$연산하는 과정에 $S^2$ kernel을 적용하는 것은 효율적이지 않다.
만약 $F$와 $G$를 따로 학습할 수 있다면, dynamic하게 사용함으로 segmentation의 location을 효과적으로 찾을 수 있다.

(1) Mask Kernal Branch ($G$)

Backbone과 FPN이 주어지면, 모든 level의 pyramid feature에 대해 feature mask kernel $G$를 predict한다.
- $I$ 번째 pyramid 에서 추출한 feature $F_I\in\mathbb{R}^{H_I\times W_I \times C}$가 입력되면 grid cell ($S \times S \times C$)로 resize한다.
- 4번의 3x3 convolution과 마지막 $(3\times 3\times D)$ kernel을 이용한 convolution을 적용하여, 최종 kernel $G$를 얻는다. 첫번째 convolution은 CoordConv를 적용하여 coordinates를 normalize한다.
- 이 과정을 통해 각 level의 feature 마다 D-dimension의 아웃풋이 생성되며, $3\times 3$ kernel을 predict하는 경우 $D=9E$가 되도록 구성한다. (최종 output에는 activation function을 적용하지 않는다.)