본문 바로가기

728x90

ReLU2

[PYTHON] 가중치 초기화의 2가지 핵심 기법(He vs Xavier)과 활성화 함수 결합의 수학적 정당성 해결 방법 딥러닝 모델을 설계할 때 우리가 가장 먼저 직면하는 기술적 난제는 "어떻게 네트워크의 파라미터를 초기화할 것인가?"입니다. 단순히 무작위 숫자를 채워 넣는 것만으로는 심층 신경망의 복잡한 기울기 흐름을 제어할 수 없습니다. 특히 활성화 함수의 선택에 따라 가중치 초기화 전략이 달라져야 한다는 사실은 모델의 수렴 속도와 성능을 결정짓는 결정적인 요소입니다. 본 글에서는 Xavier 초기화와 He 초기화가 각각 Tanh 및 ReLU와 결합될 때 가지는 수학적 배경과 파이썬 실무 적용 사례를 심층적으로 다룹니다.1. 왜 가중치 초기화(Weight Initialization)인가?신경망이 깊어질수록 Gradient Vanishing(기울기 소실)과 Gradient Exploding(기울기 폭주) 현상이 빈번하게.. 2026. 4. 15.

[PYTORCH] 활성화 함수 3가지 선택 기준과 기울기 소실 해결 방법 7가지 딥러닝 모델의 성능을 결정짓는 가장 미묘하면서도 강력한 요소는 바로 활성화 함수(Activation Function)의 선택입니다. 파이토치(PyTorch)를 활용해 신경망을 구축할 때, 단순히 관습적으로 ReLU를 사용하거나 출력층에 Sigmoid를 배치하는 수준을 넘어, 각 함수의 수학적 특성이 역전파(Backpropagation)와 기울기 흐름(Gradient Flow)에 미치는 영향을 이해해야 합니다. 활성화 함수는 비선형성(Non-linearity)을 부여하여 신경망이 복잡한 패턴을 학습할 수 있게 하는 핵심 엔진이며, 잘못된 선택은 모델을 죽은 뉴런(Dead Neuron)의 늪에 빠뜨릴 수 있습니다. 본 가이드에서는 시니어 AI 엔지니어의 관점에서 ReLU, Sigmoid, Tanh의 구조적 .. 2026. 3. 24.

이전 1 다음

728x90

티스토리툴바