
영상에 따라 depth의 범위가 다름.
DORN

추정된 depth map을 binning한 후 ordinal regressor를 이용하여 최종 depthmap 도출
큰 depth를 가질수록 relatively error가 커지는 경향이 있음. → 큰 depth를 가질 때 더 큰 loss를 가지므로, 학습 과정에서 큰 depth에 치중하게 됨. (디테일을 놓칠 수 있음)
Spacing-incresing discreization을 적용하여 depth 구간에 따른 학습 과정의 영향을 최소화 → fixed size bin을 사용

$$ t_i=e^{\log(\alpha)+\frac{\log (\beta/\alpha)}{K}} $$
Depth를 특정 interval로 분할한 후 각 구간에 대한 포함 여부를 ordinal Regression (ordinal classifier)을 이용하여 추정

https://towardsdatascience.com/deep-ordinal-logistic-regression-1afd0645e591
$$ \mathcal{L}(\mathcal{X}, \Theta)=-\frac{1}{N}\sum_{w=0}^{W-1}\sum_{h=0}^{H-1}\Psi(w,h,\mathcal{X},\Theta) $$
여기서 $\mathcal{X}=\varphi(I,\Phi)$ is feature map을 $Y=\psi(\mathcal{X}, \Theta)$를 $W \times H \times 2K$크기의 ordinal regressor의 output이라하면**,** Average of pixelwise ordinal loss는 다음과 같이 정의된다.
$$ \Psi(w,h,\mathcal{X}, \Theta)=\sum_{k=0}^{l_{(x,y)}-1}\log \left( \mathcal{P}{(w,h)} \right)+\sum{k=l_{(x,y)}}^{K-1}\left( 1-\log\left( \mathcal{P}_{(w,h)} \right)\right) $$
또한 Depth value가 구간 [k, K+1]에 속할 확률 $\mathcal{P}$는 다음과 같이 정의된다. (softmax 함수 사용)
$$ \mathcal{P}{(w.h)}^k=P\left( \hat{l}{(w,h)}>k|\mathcal{X}, \Theta\right) $$
$$ \mathcal{P}_{(w.h)}^k=\frac{e^{y(w,h,2k+1)}}{e^{y(w,h,2k)}+e^{y(w,h,2k+1)}} $$
Ordinal regression 결과를 이용하여 Predicted depth/label 산출할 수 있다.
$$ \hat{d}{(w,h)}=\frac{t{\hat{l}{(w,h)}}+t{\hat{l}_{(w,h)+1}}}{2}-\xi $$
$$ \hat{l}{(w,h)}=\sum{k=0}^{K-1}\eta\left(\mathcal{P}_{(w.h)}^k>=0.5\right) $$