728x90 ModelEvaluation1 [PYTORCH] Subset을 이용해 학습/검증 데이터를 나누는 3가지 방법과 데이터 누수 해결 가이드 모델의 성능을 객관적으로 평가하기 위해 전체 데이터를 학습(Train)과 검증(Validation) 세트로 나누는 과정은 필수적입니다. PyTorch에서는 torch.utils.data.Subset 클래스를 통해 원본 데이터를 물리적으로 복사하지 않고도 인덱스 참조만으로 데이터를 효율적으로 분할할 수 있습니다. 본 가이드에서는 2026년 실무 표준에 따른 데이터 분할 전략과 발생 가능한 데이터 누수(Data Leakage) 해결 방안을 상세히 다룹니다.1. Subset 클래스의 동작 원리와 메모리 효율성PyTorch의 Subset은 원본 데이터셋 객체와 선택하고자 하는 인덱스 리스트를 인자로 받습니다. 이는 얕은 복사(Shallow Copy) 방식을 취하므로, 수십 GB에 달하는 이미지나 비디오 데이터를.. 2026. 3. 25. 이전 1 다음 728x90