0. Introduction 0.1. Gradient Vanishing / Exploding Neural Network의 Train시에 Gradient 값의 변화를 보고 Parameter를 조절합니다. Gradient는 변화량, 즉 미분값입니다. Neural Network의 깊이가 깊어질수록 Backpropagation시에 Gradient 값들이 Input Layer의 입력값의 변화를 적절하게 학습에 반영하지 못합니다. Backpropagation시에, Non-Linear Activation Function(Ex. Sigmoid / Tanh )들을 사용하면 Layer를 지날수록 Gradient 값들이 점점 작아지거나(Gradient Vanishing) 혹은 반대로 Gradient 값들이 점점 커져서(Gr..