본문 바로가기

728x90

#Pickle1

[PYTHON] 대용량 데이터 로딩 효율을 높이는 Parquet 및 HDF5 활용 방법과 pickle과의 3가지 성능 차이 해결책 1. 데이터 사이언스의 숨은 병목: 직렬화(Serialization)의 선택Python 환경에서 객체를 저장하고 불러올 때 가장 먼저 떠오르는 도구는 pickle입니다. 사용법이 매우 간단하고 Python의 거의 모든 객체를 그대로 저장할 수 있다는 장점 때문입니다. 하지만 프로젝트의 규모가 커지고 데이터셋이 기가바이트(GB) 단위를 넘어서는 순간, pickle은 심각한 성능 저하와 보안 취약점을 드러내는 '기술 부채'로 돌변합니다. 단순히 "pickle이 느리다"는 직관을 넘어, 왜 엔지니어들이 Parquet(컬럼 기반 저장)이나 HDF5(계층적 데이터 형식)로 이관해야 하는지 정량적인 근거를 확인해야 합니다. 본 포스팅에서는 압축률, I/O 속도, 메모리 매핑 기법을 중심으로 대용량 데이터 로딩의 최.. 2026. 4. 13.

이전 1 다음

728x90

티스토리툴바