딥러닝은 손실 함수를 최소화 하는 모델의 파라미터 즉, 모델의 weight 값을 알아내는 것이다. 일반적으로 gradient descent 알고리즘을 사용하는데, gradient descent 알고리즘은 initial point가 꽤나 중요하다. 이번에는 가중치를 초기화 하는 몇 가지 방법에 대해 정리하려 한다. 일단, 만약 표준정규분포(평균 0, 표준편차 1)를 이용해서 랜덤하게 weight를 초기화 하면 어떻게 될까? 레이어를 지날수록 점점 weight 값이 커지고 분산도 커진다. 이는 활성 함수를 통과하면 saturation 될 가능성이 높아지고 학습이 더 이상 진행이 되지 않는다. 그렇다고 평균은 0, 표준 편차가 0.01인 분포를 이용해서 초기화를 하면 어떻게 될까? 레이어를 지날수록 점점 we..