본문 바로가기
728x90

데이터불균형2

[PYTHON] 데이터 불균형 해결을 위한 Focal Loss와 Class Weight의 3가지 차이점과 적용 방법 실질적인 머신러닝 프로젝트를 진행하다 보면 가장 빈번하게 마주치는 문제 중 하나가 바로 데이터 불균형(Imbalanced Data)입니다. 암 진단 데이터, 이상 거래 탐지(Fraud Detection), 시스템 장애 예측 등 대부분의 가치 있는 도메인에서 우리가 타겟으로 삼는 'Positive' 클래스는 전체의 1% 미만인 경우가 많습니다. 과거에는 오버샘플링 기법인 SMOTE(Synthetic Minority Over-sampling Technique)가 만능 열쇠처럼 여겨졌으나, 고차원 데이터에서의 노이즈 생성 문제와 연산 비용의 한계로 인해 최근에는 손실 함수(Loss Function) 자체를 최적화하는 Focal Loss나 Class Weight 방식이 더 선호되고 있습니다. 본 포스팅에서는 이.. 2026. 4. 28.
[PYTHON] 데이터 불균형 해결을 위한 Focal Loss 튜닝 및 성능 개선 방법 7가지 머신러닝과 딥러닝 프로젝트를 진행하다 보면 가장 빈번하게 마주치는 난제 중 하나가 바로 데이터 불균형(Data Imbalance) 문제입니다. 특히 객체 탐지(Object Detection)나 희귀 질병 진단, 금융 사기 탐지(Fraud Detection)와 같은 도메인에서는 배경(Background)이나 정상 데이터가 타겟 객체보다 압도적으로 많습니다. 이 경우 일반적인 Cross Entropy Loss를 사용하면 모델은 다수 클래스(Easy Examples)를 맞추는 데만 집중하게 되어, 정작 중요한 소수 클래스(Hard Examples)에 대한 예측 성능이 급격히 떨어집니다. 본 포스팅에서는 이러한 불균형을 극복하기 위해 제안된 Focal Loss의 메커니즘을 심도 있게 분석하고, 실무에서 모델의 .. 2026. 4. 15.
728x90