From Big to Small: Multi-Scale Local Planar Guidance for Monocular Depth Estimation
[논문 리뷰] From Big to Small: Multi-Scale Local Planar Guidance for Monocular Depth Estimation
MDE/bts_tf1 at main · kimjeonghyon/MDE
어려움 무한히 많은 3D 장면이 동일한 2D 장면에 투영될 수 있기 때문에 문제가 된다.
DCNN을 기반으로 하는 모델은 일반적으로 특징 추출을 위한 인코더와 예측을 위한 디코더, 두 부분으로 구성됩니다.
ASPP 특징 추출 부분(DFE)은 VGG, ResNet 또는 DenseNet과 같은 강력한 심층 네트워크가 사용됩니다. 이러한 네트워크에서 컨볼루션, 풀링 레이어는 출력의 해상도를 낮추며, 이는 원하는 예측을 얻는데 병목 현상이 될 수 있습니다. 따라서 multi-scale networks, skip connections, multi-layer deconvolutional networks 와 같은 기술이 고해상도의 피쳐 맵을 통합하는 데 적용됩니다. 최근에는 image semantic segmentation을 위해 ASPP가 도입되었습니다.
LPG 디코더에서는 전체 해상도로 복구할 때 명시적 관계를 정의하기 위해 디코딩 단계의 여러 단계에 로컬 평면 안내 레이어를 활용하는 네트워크 아키텍처를 제안합니다. 구체적으로, 1/8, 1/4, 1/2의 공간 해상도를 갖는 각 디코딩 단계에서 local planar assumption으로 피처 맵을 원하는 깊이로 안내하는 레이어입니다. 그런 다음 출력을 결합하여 전체 해상도에서 깊이를 예측합니다.
접근방식의 차이 VS ( multiscale network, image pyramid )
첫째, 제안된 레이어의 출력은 깊이 추정으로 처리되지 않습니다. 대신, 4-dimensional plane coefficients를 학습해서 최종 estimation에서 사용합니다.
둘째, 비선형 결합의 결과로, 각 해상도의 셀은 뚜렷하게 훈련됩니다.