Distilling the Knowledge in a Neural Network | Notion

Reference

모델의 구조가 정말로 중요할까?

SOTA : Transformer, Graph Convolution, 시간-공간 차원 통합형 등의 네트워크 구조 변경을 통해 성능 향상이 된 경우가 다수
앙상블 : 컴퓨팅 비용, 속도 문제
이 논문은 구조 변경이 아니라, 더 단순한 구조의 모델로도 복잡한 모델의 지식을 전달받아서 Teacher 모델에 준하는 성능을 낼 수 있다는 걸 보여줌

Distillation

distillation(증류)을 통한 불순물 제거

distillation(증류)을 통한 불순물 제거

knowledge distillation : 불필요한 파라미터들이 많이 포함된 Teacher 모델에서, 보다 단순화된 Student 모델로 Knowledge를 전달해서 성능을 유지하도록 하여 속도까지 개선하는 방법

Softmax

soft label : one-hot 처리를 하기 전 모델의 실제 결과값
정보량의 차이
이 논문의 결과를 봤을 때 동일한 아키텍처의 모델을 hard label만으로 학습한 경우보다 soft label로 학습한 결과가 더 좋았음

값의 크기가 작은 클래스의 경우, 정보 전달이 잘 되지 않을 수 있기 때문에 온도(Temperature) 적용

값의 크기가 작은 클래스의 경우, 정보 전달이 잘 되지 않을 수 있기 때문에 온도(Temperature) 적용