본문 바로가기

728x90

데이터누수2

[PYTHON] 시계열 데이터 Cross Validation 시 Data Leakage를 방지하는 3가지 핵심 검증 전략 머신러닝 모델을 구축할 때 교차 검증(Cross Validation)은 모델의 일반화 성능을 평가하는 표준적인 방법입니다. 하지만 일반적인 독립 항등 분포(i.i.d)를 가정하는 정적 데이터와 달리, 시계열 데이터(Time Series Data)는 시간의 흐름에 따른 순서 의존성이 존재합니다. 이 특성을 무시하고 일반적인 K-Fold를 적용하면 미래의 데이터가 과거의 학습에 관여하는 데이터 누수(Data Leakage)가 발생하여, 실전에서는 작동하지 않는 '과적합된 쓰레기 모델'을 만들게 됩니다. 본 포스팅에서는 시계열 분석의 전문성을 높이고 실무에서 즉시 활용 가능한 데이터 누수 방지 검증 전략을 심층적으로 다룹니다.1. 왜 시계열에서는 일반 K-Fold가 위험한가?일반적인 K-Fold 방식은 데이터.. 2026. 4. 25.

[PYTHON] Scikit-learn 파이프라인 확장을 위한 2가지 커스텀 트랜스포머 구현 방법과 데이터 누수 해결< 머신러닝 프로젝트의 성패는 모델의 알고리즘만큼이나 데이터 전처리 파이프라인(Data Preprocessing Pipeline)의 견고함에 달려 있습니다. 단순히 데이터를 정제하는 것을 넘어, 전처리 과정을 모델 학습 과정과 완벽하게 통합하지 않으면 치명적인 데이터 누수(Data Leakage)가 발생하여 모델의 성능을 오염시키게 됩니다. Scikit-learn의 Pipeline은 매우 강력하지만, 기본 제공되는 StandardScaler나 OneHotEncoder만으로는 비즈니스 특화된 복잡한 로직(예: 특정 도메인 공식 적용, 텍스트 파싱 등)을 처리하기에 부족함이 있습니다. 본 가이드에서는 BaseEstimator와 TransformerMixin을 상속받아 나만의 독창적인 커스텀 트랜스포머를 설계하는.. 2026. 3. 21.

이전 1 다음

728x90

티스토리툴바