그래디언트 소실 (Gradient Vanishing)
딥러닝에서 깊은 신경망을 학습시킬 때 기울기가 점점 작아져 학습이 어려워지는 문제입니다.
그래디언트 소실이란?
그래디언트 소실(Gradient Vanishing)은 깊은 신경망을 학습시킬 때 발생하는 대표적인 문제입니다. 신경망이 역전파를 통해 학습할 때, 출력층에서 입력층으로 갈수록 그래디언트(기울기)가 점점 작아져서 결국 거의 0에 가까워지는 현상을 말합니다. 이렇게 되면 앞쪽 층들은 거의 학습이 되지 않아 전체 모델의 성능이 크게 떨어집니다.
마치 메아리가 멀어질수록 점점 작게 들리다가 결국 사라지는 것과 비슷합니다. 신경망의 깊이가 깊어질수록 학습 신호가 점점 약해져서 초기 층까지 전달되지 못하는 것이죠.
왜 발생하는가?
그래디언트 소실의 주요 원인은 활성화 함수와 가중치 초기화에 있습니다. 전통적으로 사용되던 시그모이드나 하이퍼볼릭 탄젠트 함수는 입력값이 클 때 기울기가 매우 작아집니다. 역전파 과정에서 이런 작은 기울기들이 계속 곱해지면서 지수적으로 감소하게 되는 것입니다.
또한 가중치가 너무 작게 초기화되어도 비슷한 문제가 발생할 수 있습니다. 층을 거칠 때마다 신호가 약해져서 깊은 네트워크에서는 학습이 거의 불가능해집니다.
해결 방법들
다행히 현대 딥러닝에서는 이 문제를 해결하는 여러 방법들이 개발되었습니다. ReLU 같은 활성화 함수를 사용하면 양수 구간에서 기울기가 1로 일정해서 소실 문제를 크게 줄일 수 있습니다.
배치 정규화나 레이어 정규화 같은 기법들도 각 층의 입력을 안정화시켜 그래디언트 흐름을 개선합니다. 또한 잔차 연결(Residual Connection)을 사용하는 ResNet 같은 구조는 그래디언트가 직접적인 경로로 흘러갈 수 있게 해서 매우 깊은 네트워크도 성공적으로 학습할 수 있게 만들었습니다.