본문 바로가기
728x90

tokenization3

[PYTHON] 특수 도메인 성능 해결을 위한 BPE vs SentencePiece 2가지 토크나이저 차이와 최적화 방법 거대 언어 모델(LLM)이 의료, 법률과 같은 전문적인 특수 도메인에서 기대 이하의 성능을 보이는 가장 근본적인 원인 중 하나는 바로 토크나이저(Tokenizer)에 있습니다. 범용적인 데이터로 학습된 토크나이저는 전문 용어를 의미 없는 파편(Subwords)으로 쪼개어 버려 모델의 이해도를 떨어뜨립니다. 본 가이드에서는 BPE(Byte Pair Encoding)와 SentencePiece의 기술적 차이를 심층 분석하고, 파이썬을 이용해 전문 도메인 성능을 200% 이상 끌어올리는 7가지 실무 방법을 제시합니다.1. 특수 도메인에서의 토큰화 난제: 의미론적 붕괴 해결의료 도메인의 "Encephalopathy(뇌병증)"나 법률 도메인의 "Easement(지역권)"와 같은 단어들은 일반 토크나이저를 거치면 .. 2026. 4. 24.
[PYTHON] 토큰화(Tokenization)와 형태소 분석의 결정적 차이 3가지와 해결 방법 7가지 자연어 처리(NLP) 파이프라인의 첫 단추는 텍스트 데이터를 컴퓨터가 이해할 수 있는 단위로 쪼개는 것입니다. 여기서 입문자들이 가장 많이 혼동하는 개념이 바로 토큰화(Tokenization)와 형태소 분석(Morphological Analysis)입니다. 단순히 공백으로 나누는 것이 토큰화라면, 그 쪼개진 단어의 문법적 뿌리를 찾는 것이 형태소 분석입니다. 특히 한국어처럼 교착어의 특성이 강한 언어는 이 둘의 차이를 이해하지 못하면 모델의 성능이 처참하게 무너집니다. 본 가이드에서는 파이썬을 활용해 두 개념의 기술적 차이를 분석하고 실무에서 발생하는 전처리 문제의 해결 전략 7가지를 제시합니다.1. 토큰화와 형태소 분석의 개념 및 메커니즘 차이토큰화는 텍스트를 '토큰'이라는 최소 의미 단위로 분절하는 .. 2026. 4. 10.
[PYTORCH] 텍스트 데이터 처리를 위한 torchtext 활용 방법 및 0.18버전 이후 변화 해결 가이드 자연어 처리(NLP) 분야에서 데이터를 수집하고 정제하여 모델이 이해할 수 있는 텐서 형태로 변환하는 과정은 전체 파이프라인의 70% 이상을 차지합니다. PyTorch 생태계의 torchtext 라이브러리는 토큰화(Tokenization), 단어 사전(Vocabulary) 구축, 수치화(Numericalization) 과정을 표준화해 줍니다. 특히 최근 torchtext는 레거시(Legacy) API를 대대적으로 폐기하고 성능 중심의 최신 API로 전환되었습니다. 본 가이드에서는 2026년 실무 기준에 맞춘 최적의 활용법을 제시합니다.1. torchtext의 구조적 진화와 설계 철학기존 torchtext.data.Field 중심의 설계는 유연성이 부족하고 성능상 한계가 있었습니다. 최신 버전은 Trans.. 2026. 3. 25.
728x90