728x90 StochasticWeightAveraging1 [PYTHON] 모델 안정성 해결을 위한 Stochastic Weight Averaging (SWA) 적용 시점과 7가지 활용 방법 딥러닝 모델을 학습시킬 때 가장 허무한 순간은 검증 데이터셋(Validation Set)에서는 최고의 성능을 보였으나, 실제 배포 환경(In-the-wild)에서 성능이 급격히 하락하는 경우입니다. 이는 모델이 가파른 손실 함수 곡면(Sharp Minima)에 빠졌기 때문일 가능성이 큽니다. 본 포스팅에서는 이를 해결하기 위해 Stochastic Weight Averaging (SWA)를 활용하여 더 넓고 평평한 곡면(Flat Minima)을 찾아 모델의 일반화 성능을 극대화하는 실무적인 전략을 다룹니다.1. SWA의 개념과 왜 평평한 곡면(Flat Minima)이 중요한가?전통적인 SGD(Stochastic Gradient Descent)는 학습 종료 시점의 가중치($w$) 하나만을 사용합니다. 하지만.. 2026. 4. 25. 이전 1 다음 728x90