Batch Normalization(BN)은 기본적으로 모델에서의 output distribution이 변함(Internal Covariate Shift)에 따라 생기는 다양한 문제를 해결하기 위해 Normalize하는 기법이다. 저자가 제시한 방법을 활용하여 이와 같은 문제를 해결하고 나아가 적용 방법과 그 성능을 확인해보고자 한다.
Abstract
저자는 Deep Neural Network를 학습시킴에 따라 발생하는 문제를 지적한다.
: 트레이닝 시 각 layer의 input의 분포가 변함에 따라, (1) learning rate 값을 낮추고, (2) parameter(모델의 weight)를 careful하게 초기화하며, (3) 비선형 함수(activation)의 saturating 문제에 따라 학습이 어려움이 존재한다.
이를 해결하기 위하여, 각 트레이닝 mini-batch 단위로 normalization 하는 기법을 제시한다. 해당 기법을 통해 (1) learning rate를 키우고 parameter 초기화에 less careful 하며, (2) regularization 역할을 보여 Dropout이 필요 없음을 보인다.