본문 바로가기
728x90

데이터정제3

[PYTHON] 데이터 정제의 핵심 : 문자열 split() 함수의 마스터 가이드 파이썬 프로그래밍에서 가장 빈번하게 마주하는 데이터 타입은 단연 문자열(String)입니다. 웹 크롤링으로 수집한 텍스트 데이터부터 로그 파일의 한 줄까지, 우리가 다루는 정보의 대부분은 텍스트 형태로 존재합니다. 이러한 비정형 데이터를 분석하기 위해 가장 먼저 선행되어야 할 작업이 바로 '토큰화(Tokenization)', 즉 문자열을 의미 있는 단위로 쪼개어 리스트로 변환하는 것입니다. 오늘은 그 중심에 있는 split() 함수의 모든 것을 심층 분석합니다.1. split() 함수의 기본 메커니즘파이썬의 split() 메서드는 문자열을 특정 구분자를 기준으로 나누어 리스트(List) 형태로 반환합니다. 이 메서드의 진정한 강점은 직관적인 문법과 더불어 내부적인 최적화에 있습니다.기본 문법str.spl.. 2026. 2. 5.
[PYTHON] 데이터 정제의 마법사, 집합(Set)의 핵심 매커니즘 : 중복 제거와 무순서의 미학 파이썬(Python) 프로그래밍에서 데이터를 효율적으로 관리하기 위해 우리는 다양한 자료구조를 사용합니다. 그중에서도 집합(Set)은 수학의 집합 개념을 프로그래밍 언어로 완벽하게 구현해낸 독특한 도구입니다. 리스트(List)나 튜플(Tuple)이 데이터의 '나열'에 집중한다면, 집합은 데이터의 '존재 여부'와 '유일성'에 집중합니다. 단순히 데이터를 담는 바구니를 넘어, 대규모 데이터 처리에서 성능 최적화의 핵심 열쇠가 되는 집합의 두 가지 결정적 특징인 중복 불가(Uniqueness)와 순서 없음(Unordered)에 대해 심층적으로 분석해 보겠습니다.1. 특징 하나: 중복 불가(Uniqueness) - 데이터 결벽증의 미학집합의 가장 강력한 특징은 동일한 값을 허용하지 않는다는 점입니다. 집합에 아.. 2026. 2. 4.
[ORACLE] SOUNDEX()로 고객 오타 명 검색 정확도 높이기 실전 예제 Oracle SQL에서 문자열의 발음이 유사한지를 판별하는 데 사용되는 SOUNDEX() 함수는 데이터 정합성 검증, 검색 기능 강화 등에 유용한 도구입니다. 이 글에서는 SOUNDEX 함수의 원리와 활용법, 그리고 실무에서 자주 쓰이는 예제를 중심으로 자세히 설명하겠습니다.1. SOUNDEX 함수란?SOUNDEX는 문자열을 발음 유사성을 기준으로 코딩하는 함수입니다. 즉, 철자가 다르더라도 발음이 비슷한 문자열을 같은 코드로 변환하여 비교할 수 있도록 해줍니다.SOUNDEX(string)이 함수는 문자열을 일정한 알고리즘으로 숫자와 문자 조합 형태의 코드로 변환하며, 영어 기반의 음운 규칙을 사용합니다.2. SOUNDEX의 작동 원리첫 글자는 그대로 유지이후의 자음은 숫자로 변환예: B, F, P, V.. 2025. 6. 4.
728x90