본문 바로가기
728x90

onehotencoding3

[PYTHON] 범주형 데이터를 수치로 변환하는 7가지 방법과 인코딩 차이 해결 머신러닝 모델은 수학적 알고리즘을 기반으로 작동하기 때문에 'Red', 'Green', 'Blue'와 같은 텍스트 데이터를 직접 이해할 수 없습니다. 따라서 범주형(Categorical) 데이터를 수치형(Numerical) 데이터로 변환하는 '인코딩(Encoding)' 과정은 데이터 전처리 단계에서 모델의 성능을 결정짓는 핵심 요소입니다. 단순히 숫자로 바꾸는 것을 넘어, 데이터의 특성에 맞는 최적의 해결 방법을 선택하는 것이 중요합니다.1. 인코딩 방식의 핵심 차이 및 선택 기준범주형 데이터는 크게 순서가 있는 서열형(Ordinal)과 순서가 없는 명목형(Nominal)으로 나뉩니다. 잘못된 인코딩 방식은 모델에 왜곡된 우선순위를 학습시킬 수 있으므로 주의가 필요합니다.인코딩 주요 기법 비교 요약인코딩.. 2026. 4. 26.
[PYTHON] Label Encoding vs One-hot Encoding 선택 방법 7가지와 모델별 성능 차이 해결 머신러닝 프로젝트의 성패는 모델 알고리즘 선택만큼이나 범주형 데이터(Categorical Data)를 어떻게 수치로 변환하느냐에 달려 있습니다. 단순히 '텍스트를 숫자로 바꾼다'는 개념을 넘어, 우리가 선택한 인코딩 방식은 모델이 데이터 간의 관계를 해석하는 방식 자체를 결정합니다. 본 포스팅에서는 Label Encoding과 One-hot Encoding이 트리 기반 모델(XGBoost, LightGBM 등)과 선형 모델(Logistic Regression, SVM 등)에 미치는 치명적인 영향력을 분석하고, 실무에서 마주하는 성능 저하 문제를 해결하기 위한 7가지 핵심 전략을 전문적인 관점에서 제시합니다.1. 인코딩 방식에 따른 메커니즘 차이 및 모델별 적합성 비교인코딩 방식은 데이터의 차원과 '순서(.. 2026. 4. 19.
[PYTHON] 머신러닝의 필수 관문: 원-핫 인코딩(One-hot Encoding)이 필요한 3가지 이유와 해결 방법 컴퓨터는 텍스트를 이해하지 못합니다. 우리가 흔히 접하는 '빨강', '파랑', '노랑' 혹은 '서울', '부산', '대구'와 같은 범주형 데이터(Categorical Data)를 머신러닝 모델에 그대로 입력하면 오류가 발생하거나, 모델이 데이터를 잘못 해석하게 됩니다. 이를 해결하기 위해 가장 널리 쓰이는 기법이 바로 원-핫 인코딩(One-hot Encoding)입니다. 본 포스팅에서는 원-핫 인코딩의 본질적인 필요성과 실무에서 마주하는 차원의 저주 문제를 해결하는 전략을 심도 있게 다룹니다.1. 원-핫 인코딩이 데이터 전처리에서 필수적인 3가지 이유단순히 문자를 숫자로 바꾸는 것을 넘어, 왜 하필 '원-핫(One-hot)' 방식이어야 하는지에 대한 전문적인 통찰이 필요합니다.① 가중치 편향(Weight.. 2026. 4. 7.
728x90