본문 바로가기
728x90

DeepLearningOptimization2

[PYTHON] 커스텀 옵티마이저 구현 시 Weight Decay와 L2 Regularization 2가지 차이 반영 방법 딥러닝 모델의 일반화 성능을 높이기 위해 사용하는 Weight Decay와 L2 Regularization은 실무에서 혼용되곤 하지만, 수식적으로는 엄밀히 다른 개념입니다. 특히 AdamW와 같은 최신 옵티마이저를 직접 구현하거나 커스텀할 때 이 차이를 무시하면 하이퍼파라미터 최적화에 실패할 가능성이 큽니다. 본 가이드에서는 이 두 기법의 수식적 결합 방식의 차이를 분석하고, 파이썬(PyTorch)을 활용해 7가지 실전 옵티마이저 구현 예제를 상세히 다룹니다.1. Weight Decay vs L2 Regularization: 수식적 차이점 분석기존 SGD에서는 두 개념이 수학적으로 동일한 업데이트 결과를 낳지만, 모멘텀(Momentum)이나 적응형 학습률(Adaptive Learning Rate)을 사용.. 2026. 4. 15.
[PYTHON] Learning Rate Scheduler Cosine vs OneCycle 2가지 차이와 Local Minima 탈출 방법 딥러닝 모델의 크기가 수십억 개의 파라미터를 넘어서는 거대 모델(Large Models) 시대에, 단순한 고정 학습률(Learning Rate)은 더 이상 유효하지 않습니다. 모델이 복잡한 Loss Landscape에서 Local Minima나 Saddle Point에 갇히지 않고 전역 최적점(Global Minimum)을 향해 나아가기 위해서는 정교한 스케줄링 전략이 필수적입니다. 본 포스팅에서는 가장 대중적인 Cosine Annealing과 최신 트렌드인 OneCycleLR의 구조적 차이를 분석하고, 거대 모델 학습 시 Local Minima 탈출에 미치는 영향을 7가지 실전 코드를 통해 상세히 살펴봅니다.1. Cosine vs OneCycle: 메커니즘의 근본적 차이점두 스케줄러 모두 학습률을 동적.. 2026. 4. 15.
728x90