til 5

딥러닝 | 가중치 초기화? (Weight Initialization)

딥러닝은 손실 함수를 최소화 하는 모델의 파라미터 즉, 모델의 weight 값을 알아내는 것이다. 일반적으로 gradient descent 알고리즘을 사용하는데, gradient descent 알고리즘은 initial point가 꽤나 중요하다. 이번에는 가중치를 초기화 하는 몇 가지 방법에 대해 정리하려 한다. 일단, 만약 표준정규분포(평균 0, 표준편차 1)를 이용해서 랜덤하게 weight를 초기화 하면 어떻게 될까? 레이어를 지날수록 점점 weight 값이 커지고 분산도 커진다. 이는 활성 함수를 통과하면 saturation 될 가능성이 높아지고 학습이 더 이상 진행이 되지 않는다. 그렇다고 평균은 0, 표준 편차가 0.01인 분포를 이용해서 초기화를 하면 어떻게 될까? 레이어를 지날수록 점점 we..

딥러닝 | 정규화? (Batch Normalization, Layer Normalization)

기계학습 살펴보기 할 때, 정규화와 표준화를 잠깐 언급하긴 했는데 이번에 좀 더 자세히 정리하려고 한다. 일단, 우리는 보통 zero-mean, unit-variance를 선호하는데 그 이유가 무엇일까? activation 함수를 생각해보자. 대부분의 활성함수는 0 부근에서 gradient 값을 갖고, 0에서 멀어지면 gradient가 거의 0에 수렴하게 되고 더 이상 학습이 진행되지 않는다. 따라서 우리는 데이터 인풋이 0 근처에 있었으면! 하는 것이다. 그래서 input을 어느정도 normalization 해주자!가 되는 것이다. 배치 정규화 (Batch Normalization) 위에서 언급했듯이, zero-mean, unit-variance를 위해서 아래 수식을 이용한다. (아래에서 소개할 레이어..

기계학습 | 기계학습의 다양한 개념들을 간단하게 살펴보자!

개념을 빠르게 훑어보기 위한 글 2번째... 역시나 뒤죽박죽ㅎㅎ 차원 축소 차원 축소는 고차원 데이터를 저차원 데이터로 변환하는 과정을 말한다. 차원 축소에는 2가지 기법이 존재한다. feature selection은 주요 특성만 골라내는 것으로 불필요한 특성은 제거하고 데이터의 특징을 잘 나타내는 특성만 선택한다. feature extraction은 특성을 조합해서 데이터를 잘 표현할 수 있는 중요한 성분들을 가진 새로운 특성을 추출하는 것이다. 하지만, 기존 특성 값들과 완전히 다른 값을 갖게 되어 추출된 변수의 해석이 어렵다. PCA, t-SNE 등이 여기에 속한다. 차원의 저주 (Curse of Dimensionality) 차원의 저주는 차원이 증가할 수록 다양한 문제가 발생한다는 것인데, 차원이..

수학 | 고윳값 분해(Eigen Decomposition)와 특이값 분해(Singular Value Decomposition)

고윳값 분해와 특이값 분해는 선형대수에서 항상 다루는 내용인데, 이 참에 한 번 정리해보기로 했다. 연구실 대쁘가 많이 도와줬다! 고윳값 분해 (Eigenvalue Decomposition) 고윳값과 고유벡터 고윳값 분해에 대해 소개하기에 앞서 고윳값(eigen value)과 고유벡터(eigen vector)의 의미를 먼저 알아보자. n x n 행렬 A에 대하여, [yellow]$Av = \lambda v$[/yellow] 을 만족하는 0이 아닌 벡터 $v$가 존재한다면 숫자 $\lambda$는 행렬 A의 고윳값이며 $v$는 고윳값 $\lambda$에 해당하는 고유벡터이다. 즉, 기하학적으로 고유벡터 $v$는 행렬 A를 곱했을 때와 곱하기 전의 방향이 바뀌지 않는다는 특징을 가지고 있다. 고윳값 분해 정..

확률 | 확률의 다양한 개념들을 간단하게 살펴보자!

확률과 관련한 이런 저런 개념들을 공부하고 정리하며 쓰는 글! 생각의 흐름과 찾아본 내용을 토대로 쓸 것이라 상당히 두서 없는 글이 될 듯. 신뢰구간 신뢰구간은 주어진 '표본'을 사용하여 구한 구간 안에 실제 '모집단'의 특성치 (여기선 모평균)가 포함될 가능성이 1-$\alpha$ 임을 의미한다. 즉, 신뢰 수준 95%라는 의미는 n개의 표본을 사용하여 신뢰구간을 구하는 과정을 100번 반복했을 때 그 중 95개의 구간이 실제 모수를 포함한다는 의미이다. 모수는 모집단의 파라미터라고 생각하면 된다. (모집단의 평균, 표준 편차 등) - 여기서는 모집단의 평균 위의 그림에서 $\bar{X}_1, \bar{X}_2, \bar{X}_k$는 각 표본을 사용하여 구한 구간 안에 실제 모집단의 특성치가 포함되어 ..