728x90 데이터리니지2 [PYTHON] 데이터 파이프라인의 Lineage 추적을 위한 OpenLineage 적용 방법 및 3가지 해결 차이 현대의 데이터 아키텍처는 수많은 소스 시스템, 복잡한 ETL 프로세스, 그리고 다양한 BI 도구들이 얽혀 있는 거대한 그물망과 같습니다. 데이터 엔지니어에게 가장 고통스러운 질문은 "이 대시보드의 숫자가 왜 틀렸나요?"가 아니라, "이 데이터가 도대체 어디서부터 흘러들어왔나요?"라는 질문일 것입니다. 데이터의 기원과 변경 이력을 추적하는 데이터 리니지(Data Lineage)는 이제 가시성을 넘어 가용성과 신뢰성의 핵심 지표가 되었습니다. 본 포스팅에서는 파이썬(Python) 환경에서 OpenLineage 표준을 적용하여 분산된 데이터 흐름을 투명하게 관리하는 구체적인 방법과, 기존의 수동 추적 방식 대비 3가지 결정적인 기술 해결 차이를 상세히 다룹니다. 실무 개발자가 즉시 통합 가능한 7가지 이상의 .. 2026. 4. 21. [PYTHON] MLOps의 핵심, DVC로 데이터와 모델 버전을 완벽하게 관리하는 7가지 방법 데이터 사이언스와 머신러닝 프로젝트를 진행하다 보면 가장 먼저 마주하는 난관은 소스 코드가 아닙니다. 바로 "어떤 데이터로 이 모델을 학습시켰는가?"에 대한 추적입니다. 일반적인 Git은 텍스트 기반의 코드 관리에는 탁월하지만, 기가바이트(GB) 단위의 데이터셋이나 대용량 모델 파일(.pth, .pkl, .h5)을 관리하기에는 적합하지 않습니다. 이를 해결하기 위해 등장한 표준 솔루션이 바로 DVC(Data Version Control)입니다. 본 포스팅에서는 Python 환경에서 DVC를 활용하여 데이터셋과 모델의 리니지(Lineage)를 추적하고, 실무 수준의 파이프라인을 구축하는 구체적인 해결 방안 7가지를 심도 있게 다룹니다.1. 왜 Git이 아닌 DVC인가? 핵심 차이 분석Git은 파일의 차이점.. 2026. 4. 20. 이전 1 다음 728x90