[ 기울기소실 Gradient Vanishing 이란? ]
"딥러닝 학습 과정에서 출력값과 멀어질 수록 학습이 되지 않는 현상"
신경망 학습은 은닉층(Hidden Layer)를 늘려야 복잡한 문제의 해결이 가능한데, 인공신경망의 계층이 깊어질 수록(은닉층을 많이 거칠수록) 학습에 중요한 역할을 하는 입력층의 가중치 조정(Back-Propagation하는 과정)이 제대로 되지 않아 1)가중치가 발산하거나, 2)곡선의 기울기(Gradient)가 0이 되어 학습이 제대로 되지 않는 현상이 발생합니다.
기울기가 거의 0으로 소멸되어 버리면 Network의 학습은 매우 느려지고, 학습이 다 이루어지지 않은 상태에서 멈출 것입니다. 이를 지역 최솟값(Local Minimum)에 도달한다고 표현하기도 합니다. 이 문제로 인하여 인공지능의 2차 겨울이 오게 되어 20년간 해결하지 못 하였습니다. 이유는 기본적인 다층 퍼셉트론(MLP) 네트워크는 학습할 때 최종 출력값과 실제 값의 오차가 최소화 되도록 가중치와 바이어스를 계산하여 결정하는데 이때 1)순전파(Feed-forward)와 2)역전파(Back-Propagation)이 발생합니다.
1) 순전파(Feed-Forward) - 알고리즘에서 발생한 오차를 줄이기 위해 새로운 가중치를 업데이트
입력층에서 은닉층 방향으로 이동하면서 각 입력에 해당하는 가중치가 곱해지고,
결과적으로 가중치 합으로 계산되어 은닉층 뉴런의 함수 값(일반적으로 시그모이드(Sigmoid) 사용)이 입력
2) 역전파(Back-Propagation) - 새로운 가중치로 다시 학습하는 과정
Input과 Output 값을 알고 있는 상태에서 신경망을 학습 시키는 방법으로 초기 가중치,
weight 값은 랜덤으로 주어지고 각각 노드들은 하나의 퍼셉트론으로, 노드를 지날때 마다 활성함수를 적용
" 은닉층(Hidden Layer)에서 경사감소법을 쓸 때 활성화 함수인 '시그모이드 함수(Sigmoid Function)'가 포함되어 가중치가 0으로 수렴하며 정확성이 감소하기에 기울기소실(Gradient Vanishing)이 발생합니다. "
▼이어지는 내용▼
활성화 함수란 ?
(면접용 축약) Gradient Vanishing · 신경망 학습의 기본인 퍼셉트론에서는 Gradient Descent로 최소의 loss값에 도달할 수 있는 기울기로 값을 찾아가는 과정에서 시그모이드 함수라는 활성화 함수가 쓰임 (이런 신경망 학습에서 길을 찾아나가는 방법은 Optimizer라하며, Gradient Descent 외에도, SGD 등으로 방법이 다양하다 => 'Optimizer 구글링ㄱㄱ' ) · 하지만 시그모이드를 사용하면 입력값이 커질 수록 기울기가 0에 수렴하여 제대로 오차가 감소되지 않거나, local minima에 빠지는 문제가 발생하기에 Gradient Vanishing 발생함 |
'AI' 카테고리의 다른 글
DenseNet (0) | 2022.07.28 |
---|---|
인공지능(AI)의 1차, 2차 겨울 (0) | 2022.05.10 |
[논문 분석] EAST: An Efficient and Accurate Scene Text Detector (0) | 2022.02.20 |
fit, transform, fit_transform (0) | 2022.02.01 |
활성화 함수 Activation Function (0) | 2021.12.27 |