728x90 Category Encoders1 [PYTHON] 고차원 카테고리 데이터 해결을 위한 Target Encoding 오버피팅 방지 7가지 방법 머신러닝 프로젝트를 진행하다 보면 High-cardinality(고차원) 카테고리 변수를 마주하게 됩니다. 예를 들어 우편번호, 기기 ID, 혹은 수천 개의 카테고리를 가진 상품 분류 등이 이에 해당합니다. 이러한 데이터를 처리할 때 일반적인 One-Hot Encoding을 사용하면 데이터 프레임의 차원이 폭발적으로 증가하여 메모리 부족 현상이 발생하거나, 모델의 학습 속도가 현저히 느려지는 문제가 발생합니다. 이러한 한계를 극복하기 위해 실무에서는 Target Encoding(Mean Encoding)을 자주 사용합니다. 하지만 Target Encoding은 타겟 변수의 정보를 직접 참조하기 때문에 데이터 누수(Data Leakage)와 오버피팅(Overfitting)에 매우 취약하다는 치명적인 단점이.. 2026. 4. 23. 이전 1 다음 728x90