728x90 그래디언트폭주1 [PYTHON] Gradient Clipping 임계값 동적 설정 방법과 3가지 성능 차이 해결 전략 딥러닝 모델 학습 중 마주하는 가장 까다로운 현상 중 하나는 그래디언트 폭주(Gradient Exploding)입니다. 특히 RNN, LSTM과 같은 순환 신경망이나 매우 깊은 레이어의 트랜스포머 구조에서 가중치 업데이트가 비정상적으로 커지면 학습이 파괴됩니다. 이를 방지하기 위해 전통적으로는 고정된 값으로 그래디언트를 자르는 'Static Gradient Clipping'을 사용해왔으나, 고정값은 학습 단계마다 변하는 손실 곡면(Loss Landscape)의 곡률을 반영하지 못합니다. 본 포스팅에서는 학습 상태에 맞춰 임계값(Threshold)을 실시간으로 최적화하는 동적 Gradient Clipping 알고리즘을 심층 분석합니다. 통계적 근거를 바탕으로 임계값을 조절하는 방법부터 최근 논문에서 제안된.. 2026. 4. 15. 이전 1 다음 728x90