본문 바로가기

728x90

FeatureEngineering6

[PYTHON] 데이터 증강 분포 차이 측정을 위한 KL Divergence 활용 방법 3가지와 성능 해결을 위한 7가지 전략 딥러닝 모델의 성능을 높이기 위해 수행하는 데이터 증강(Data Augmentation)은 양질의 데이터를 확보하는 핵심 전략입니다. 하지만 과도하거나 잘못된 방식의 증강은 원본 데이터가 가진 고유한 통계적 특성을 왜곡하여, 모델이 엉뚱한 패턴을 학습하게 만드는 '분포 편향(Distribution Shift)' 문제를 야기합니다. 본 포스팅에서는 데이터 증강 전후의 품질을 정량적으로 평가하기 위해 KL Divergence(Kullback-Leibler Divergence)를 활용하는 기술적 로직을 분석하고, 실무 개발자가 파이프라인에 즉시 삽입하여 데이터 왜곡을 감지할 수 있는 7가지 실전 해결 방안을 제시합니다.1. 데이터 품질 관리에서 KL Divergence의 수학적 의미KL Divergence는 .. 2026. 4. 27.

[PYTHON] 특성 공학(Feature Engineering)이 모델 성능을 바꾸는 3가지 방법과 해결책 머신러닝의 세계에서 "Garbage In, Garbage Out"이라는 격언은 변하지 않는 진리입니다. 아무리 복잡하고 최신인 딥러닝 아키텍처를 사용하더라도, 입력되는 데이터의 질이 낮다면 모델은 결코 유의미한 패턴을 학습할 수 없습니다. 이때 특성 공학(Feature Engineering)은 단순한 전처리를 넘어, 데이터 속에 숨겨진 도메인 지식을 알고리즘이 이해할 수 있는 형태로 변환하여 모델의 성능을 비약적으로 상승시키는 마법과 같은 과정입니다. 본 글에서는 특성 공학이 모델 성능에 미치는 3가지 핵심 영향과 실무적인 해결 방법을 심도 있게 다룹니다.1. 특성 공학의 핵심 개념과 알고리즘별 영향 차이특성 공학은 기존의 로우(Raw) 데이터에서 새로운 변수를 생성하거나, 기존 변수를 변형하여 모델의 .. 2026. 4. 26.

[PYTHON] 가공된 피처 저장 및 공유를 위한 Feature Store 도입 방법 7가지와 데이터 파편화 해결 차이 데이터 사이언스 팀이 직면하는 가장 고질적인 문제 중 하나는 바로 '피처 재개발의 굴레'입니다. A 모델을 위해 공들여 만든 '최근 3개월 평균 구매액' 피처를 B 모델을 만드는 동료가 알지 못해 처음부터 다시 SQL을 짜고 가공하는 일은 기업의 생산성을 갉아먹는 주범입니다. 특히 학습(Training) 시 사용한 피처 가공 로직과 서빙(Inference) 시 로직이 미세하게 달라 발생하는 'Training-Serving Skew'는 모델의 예측력을 무너뜨리는 치명적인 해결 과제입니다. 본 포스팅에서는 이러한 피처 엔지니어링의 병목을 해결하고, 전사적인 데이터 자산화를 가능케 하는 Feature Store(피처 스토어)의 도입 필요성과 파이썬 기반의 실무 적용 방법 7가지를 심층적으로 다룹니다.1. 기존.. 2026. 4. 19.

[PYTHON] Label Encoding vs One-hot Encoding 선택 방법 7가지와 모델별 성능 차이 해결 머신러닝 프로젝트의 성패는 모델 알고리즘 선택만큼이나 범주형 데이터(Categorical Data)를 어떻게 수치로 변환하느냐에 달려 있습니다. 단순히 '텍스트를 숫자로 바꾼다'는 개념을 넘어, 우리가 선택한 인코딩 방식은 모델이 데이터 간의 관계를 해석하는 방식 자체를 결정합니다. 본 포스팅에서는 Label Encoding과 One-hot Encoding이 트리 기반 모델(XGBoost, LightGBM 등)과 선형 모델(Logistic Regression, SVM 등)에 미치는 치명적인 영향력을 분석하고, 실무에서 마주하는 성능 저하 문제를 해결하기 위한 7가지 핵심 전략을 전문적인 관점에서 제시합니다.1. 인코딩 방식에 따른 메커니즘 차이 및 모델별 적합성 비교인코딩 방식은 데이터의 차원과 '순서(.. 2026. 4. 19.

[PYTHON] Feature Engineering 파이프라인 모듈화 방법 7가지와 하드코딩 해결 차이점 데이터 분석가와 머신러닝 엔지니어가 겪는 가장 흔한 악몽 중 하나는 "훈련 데이터(Train)에서는 잘 작동하던 전처리 코드가 추론(Inference) 단계에서 에러를 뿜거나 성능이 급락하는 현상"입니다. 이는 전처리 단계와 모델 학습 단계가 파편화되어 있기 때문에 발생하는 고질적인 문제입니다. 특히 결측치 처리, 스케일링, 인코딩을 데이터프레임 단위로 수동 관리하면 'Data Leakage(데이터 누수)' 문제에서 자유로울 수 없습니다. 본 포스팅에서는 Scikit-learn(Sklearn) Pipeline을 활용하여 지저분한 전처리 과정을 하나의 깔끔한 모듈로 통합하고, 이를 통해 모델의 재현성을 확보하는 전문적인 엔지니어링 전략을 제시합니다.1. 하드코딩 방식과 Pipeline 모듈화 방식의 치명적.. 2026. 4. 18.

[PYTHON] 로그 변환(Log Transform) 활용 시점 3가지와 정규성 문제 해결 방법 데이터 분석과 머신러닝 모델링 과정에서 우리가 마주하는 실제 데이터는 교과서처럼 예쁜 정규분포(Normal Distribution)를 따르는 경우가 드뭅니다. 대부분의 수치 데이터는 한쪽으로 크게 치우친 왜도(Skewness)를 가지거나, 값의 범위가 기하급수적으로 차이나는 특성을 보입니다. 이때 데이터의 성질을 보존하면서도 통계적 유의성을 확보하기 위한 강력한 해결책이 바로 로그 변환(Log Transform)입니다. 본 가이드에서는 로그 변환의 수학적 원리와 실무 적용 시의 차이를 심도 있게 분석합니다.1. 로그 변환이 필요한 3가지 핵심 상황과 이론적 근거로그 변환은 큰 값을 작게 만들고 작은 값들 사이의 간격을 상대적으로 넓혀주는 비선형 변환 기법입니다. 이는 모델이 극단적인 데이터 포인트(Out.. 2026. 4. 8.

이전 1 다음

728x90

티스토리툴바