본문 바로가기

728x90

NLP_OPTIMIZATION2

[PYTHON] RAG 시스템 성능 저하 해결을 위한 Re-ranking 도입 방법과 7가지 구현 전략 최근 LLM(Large Language Model)의 할루시네이션(Hallucination)을 억제하기 위한 해법으로 RAG(Retrieval-Augmented Generation)가 각광받고 있습니다. 하지만 단순히 벡터 DB에서 유사도 기반으로 문서를 검색하는 것만으로는 충분하지 않습니다. 검색된 문서 중 정답과 관련 없는 '노이즈'가 섞여 있을 경우, LLM은 잘못된 정보를 바탕으로 답변을 생성하기 때문입니다. 본 포스팅에서는 RAG의 품질을 결정짓는 핵심 단계인 Re-ranking(재정렬)의 필요성을 살펴보고, 파이썬을 이용해 이를 실무에 바로 적용하는 7가지 해결 전략을 심도 있게 다룹니다.1. 왜 Re-ranking이 필요한가? 검색 품질의 한계 해결표준적인 RAG 시스템은 임베딩 모델을 이용.. 2026. 4. 25.

[PYTHON] Transformer Attention Masking 구현 방법 3가지와 성능 병목 해결책 7가지 트랜스포머(Transformer) 아키텍처가 자연어 처리(NLP)를 넘어 컴퓨터 비전(Vision Transformer)과 멀티모달 학습의 표준이 된 핵심 비결은 모든 토큰 간의 관계를 한 번에 계산하는 셀프 어텐션(Self-Attention) 메커니즘에 있습니다. 하지만 모든 관계를 허용하는 것이 항상 정답은 아닙니다. 문장의 길이를 맞추기 위한 패딩(Padding)을 연산에서 제외하거나, 생성 모델에서 미래의 정보를 미리 보지 못하게 차단하는 어텐션 마스킹(Attention Masking)은 모델의 무결성과 성능을 결정짓는 결정적인 디테일입니다.본 가이드에서는 파이썬(Python) 환경에서 마스킹이 수학적으로 어떻게 소프트맥스(Softmax) 결과에 영향을 미치는지 분석하고, 실무에서 마주하는 가변 .. 2026. 4. 18.

이전 1 다음

728x90

티스토리툴바