[케라스 창시자에게 배우는 딥러닝] 참고 2000년대 후반까지는 매우 깊은 심층 신경망을 훈련시킬 수 있는 안정적인 방법을 찾지 못했었다. 깊게 쌓은 층을 통과해서 그래디언트(gradient)를 전파하는 것이 가장 큰 문제였다. 신경망을 훈련하기 위한 피드백 신호가 층이 늘어남에 따라 희미해졌기 때문이다. 하지만 2009~2010년 경 몇 가지 간단하지만 중요한 알고리즘이 개선되면서 그래디언트를 더 잘 전파되게 만들어 주었고, 그 결과 10개 이상의 층을 가진 모델을 훈련시킬 수 있게 되었다. 신경망 층에 더 잘 맞는 활성화 함수(Activation function) - ReLU함수 층별 사전 훈련(pre-trained)을 불필요하게 만든 가중치 초기화(weight initialization) 방법 - ..