본문 바로가기

728x90

딥러닝수학4

[PYTHON] Overfitting 방지를 위한 L1/L2 Regularization의 3가지 수학적 해석과 Weight Decay 해결 방법 딥러닝과 머신러닝 모델을 설계할 때 가장 큰 숙제는 훈련 데이터에만 지나치게 최적화되는 과적합(Overfitting)을 어떻게 제어하느냐입니다. 모델이 복잡해질수록 가중치($w$)의 절대값이 커지는 경향이 있으며, 이는 결정 경계가 요동치는 결과를 초래합니다. 이를 해결하기 위해 우리는 비용 함수(Cost Function)에 페널티 항을 추가하는 규제(Regularization) 기법을 사용합니다.본 포스팅에서는 L1(Lasso)과 L2(Ridge) 규제가 수학적으로 어떻게 가중치를 수축시키는지, 그리고 옵티마이저의 관점에서 가중치 감소(Weight Decay)와 규제가 구체적으로 어떤 차이를 갖는지 심층적으로 분석합니다.1. L1 vs L2 Regularization의 수학적 정의와 특징기본적인 손실 .. 2026. 4. 28.

[PYTHON] 역전파 (Backpropagation)의 3가지 핵심 원리와 체인 룰 해결 방법 딥러닝 모델이 수조 개의 데이터를 학습하고 스스로 성능을 개선하는 비결은 무엇일까요? 그 해답은 바로 역전파(Backpropagation) 알고리즘에 있습니다. 인공 신경망은 예측값과 실제 정답 사이의 오차를 계산한 뒤, 이 오차를 뒤로(Back) 전달하며 각 가중치(Weights)를 얼마나 수정해야 할지 결정합니다. 이것이 바로 신경망이 '실수로부터 배우는' 수학적 과정입니다.본 가이드에서는 역전파의 근간이 되는 연쇄 법칙(Chain Rule)의 원리를 파헤치고, 파이썬을 활용해 밑바닥부터 구현하는 7가지 이상의 실무 예제를 통해 딥러닝 최적화에 대한 명쾌한 해결책을 제시합니다.1. 역전파의 수학적 정수: 순전파와 역전파의 차이역전파를 이해하려면 먼저 데이터가 신경망을 통과하는 순전파(Forward P.. 2026. 4. 9.

[PYTORCH] CNN 출력 크기 계산의 3가지 핵심 공식과 Padding, Stride 설정 오류 해결 방법 딥러닝 아키텍처, 특히 합성곱 신경망(Convolutional Neural Networks, CNN)을 설계할 때 초보자와 숙련자를 막론하고 가장 자주 마주치는 난관은 바로 '레이어를 통과한 후 데이터의 차원(Dimension)이 어떻게 변하는가'입니다. PyTorch에서 RuntimeError: size mismatch 메시지를 마주하지 않으려면, Padding과 Stride가 출력 크기에 미치는 영향을 수학적으로 완벽히 이해해야 합니다. 본 가이드에서는 실무에서 즉시 활용 가능한 계산 공식과 최적의 하이퍼파라미터 조합법을 상세히 다룹니다.1. CNN 출력 크기 계산의 기본 메커니즘CNN 레이어의 출력 크기는 입력 데이터의 크기($W$), 커널(필터) 크기($F$), 패딩($P$), 그리고 스트라이드(.. 2026. 3. 24.

[PYTORCH] 야코비안(Jacobian) 행렬의 3가지 핵심 원리와 벡터 미분 해결 방법 7가지 파이토치(PyTorch)를 사용하는 많은 개발자들이 loss.backward()를 호출하며 자동 미분의 편리함을 누리지만, 그 내부에서 실제로 어떤 수학적 연산이 일어나는지 이해하는 경우는 드뭅니다. 파이토치의 자동 미분 엔진인 Autograd는 단순히 스칼라 미분을 수행하는 도구가 아닙니다. 그 본질은 다변수 함수의 도함수를 행렬 형태로 나타낸 야코비안(Jacobian) 행렬과 외부에서 들어오는 벡터 간의 곱인 Vector-Jacobian Product (VJP)를 계산하는 최적화된 엔진입니다. 본 포스팅에서는 딥러닝 수학의 정점이라 할 수 있는 야코비안 행렬과 파이토치의 관계를 독창적인 시각으로 분석하고, 실무에서 다차원 텐서의 미분 문제를 해결하는 7가지 고급 테크닉을 제시합니다.1. 야코비안(Ja.. 2026. 3. 23.

이전 1 다음

728x90

티스토리툴바