SW 연구실: Knowledge Distillation

Knowledge Distillation 에 대한 구현.

tensorflow2.2 colab 에서 작성.

cifar10 data로 실험.

efficientnetb0 모델을 student로 하고, b4를 teacher 모델로 사용. acc 기준 83.5±0.3 에서 85.0±0.3 수준으로 student 모델이 향상되었음.

cifar10 data가 워낙 작은 data이기 때문에 큰효과가 없어보이지만, 큰모델일 수록 성능차이가 두드러지는 data에서는 필요한 방법임.

(특히 inference 상황에서 시간제한이 어느정도 있을 때)

SW 연구실