728x90
반응형
[케라스 창시자에게 배우는 딥러닝] 참고
2000년대 후반까지는 매우 깊은 심층 신경망을 훈련시킬 수 있는 안정적인 방법을 찾지 못했었다.
깊게 쌓은 층을 통과해서 그래디언트(gradient)를 전파하는 것이 가장 큰 문제였다. 신경망을 훈련하기 위한 피드백 신호가 층이 늘어남에 따라 희미해졌기 때문이다.
하지만 2009~2010년 경 몇 가지 간단하지만 중요한 알고리즘이 개선되면서 그래디언트를 더 잘 전파되게 만들어 주었고, 그 결과 10개 이상의 층을 가진 모델을 훈련시킬 수 있게 되었다.
- 신경망 층에 더 잘 맞는 활성화 함수(Activation function) - ReLU함수
- 층별 사전 훈련(pre-trained)을 불필요하게 만든 가중치 초기화(weight initialization) 방법 - Xavier 초기화 or Glorot 초기화
- RMSProp과 Adam 같은 더 좋은 최적화 방법
2014~2016년 고급 기술의 개발로 현재 층의 깊이가 수천 개인 모델을 처음부터 훈련시킬 수 있다.
- 그래디언트를 더 잘 전파할 수 있는 배치 정규화(batch normalization)
- 잔차 연결(residual connection)
- 깊이별 분리 합성곱(depthwise separable convolution)
728x90
반응형
'딥러닝 (Deep Learning) > 딥러닝 기초' 카테고리의 다른 글
신경망의 데이터 표현 2 - data 다루기 (0) | 2021.04.24 |
---|---|
신경망의 데이터 표현 1 - tensor (0) | 2021.04.23 |
딥러닝의 개념과 동작 원리 (0) | 2021.04.22 |
'표현(representation)을 학습하다' 의미 (0) | 2021.04.21 |
활성 함수(Activation Function) 비교 (0) | 2021.04.11 |