링크: https://arxiv.org/pdf/1605.07110.pdf
Introduction
딥러닝은 많은 분야에서 사용되지만 층이 깊은 모델은 비볼록 최적화 함수를 가지기에 최적화 하기 힘들어 보인다. 딥러닝이 현업에서 많이 사용되긴 하지만 최적화가 쉬워지는지는 이유를 이론적으로는 모른다. 이 논문에선 기존의 deep linear network에 관한 Corollary를 증명하고 deep nonlinear networks의 미해결문제를 해결한다. 그리고 기존의 Corollary와 미해결문제에 관한 더 일반적이고 더 강한 statements를 증명한다.
Deep linear neural networks
deep linear model의 최적화는 deep nonlinear model과 유사한 점들이 있고 linear model조차도 층이 깊을 때의 이론적 근거는 거의 없기 때문에 linear model부터 다뤄본다.
배경이론으로 은닉층이 한개일 때 XX^T and XY^T는 가역행렬이고 p < dx, p < dy 그리고 dy = dx, Σ이 y distinct eigenvalues를 가진다고 가정하면 손실함수는 아래의 두가지 성질을 가진다라는 Proposition을 소개한다.
(i) 가중치 하나가 고정될 때 다른 가중치는 볼록하다.
(ii) 모든 local minima는 global minima다
그리고 이 가정을 바탕으로 은닉층이 여러개일 때 손실함수는 다음 두가지 성질을 가진다
(i) Wk을 제외한 다른 모든 가중치들이 고정되어 있을 때 가중치 Wk는 볼록하다.
(ii) 모든 local minima는 global minima다.
성질 (i)은 이미 증명 되었기에 성질 (ii)에 대해 다루는 새로운 이론을 제시한다.
XX^T and XY^T는 dy ≤ dx하며 full rank하고, Σ이 y distinct eigenvalues를 가진다고 가정하면 층의 넓이, 깊이 그리고 input output의 차원에 관계없이 손실함수는 네가지 성질을 가진다.
(i) 비볼록하며 비오목하다.
(ii) 모든 local minima는 global minima다.
(iii) global minima가 아닌 임계점들은 모두 안장점이다.
(iv) rank=p라면, 안장점에서 헤세값은 최소한 하나의 음의 고유값을 가진다.
그리고 위의 이론과 같은 조건에서 은닉층이 두개 이상인 모델에서 손실함수는 헤세값이 음의 고유값을 가지지 않는 안장점이 존재한다는 추론을 한다. 새로운 이론은 배경이론과 다르게 p ≥ dx일때도 성립하기에 모든 local minima는 global minima라는 성질을 증명한다.
위의 새로운 이론으로 특정 상황에서 모든 local minima는 global minima라는 성질을 증명했기에 poor local minima가 없다면 안장점만을 고려하면 된다.
Deep nonlinear neural networks
deep linear model에 이어 deep nonlinear model에 대해 살펴본다.
기존에는 random matrix theory를 통해 학습된 함수와 deep nonlinear model간의 관계를 설명한 논문이 있었으나 비현실적인 가정들을 사용했었다. 저자는 대부분의 가정을 없앰으로써, 가정 7개중 2개만 사용, 실제 deep nonlinear모델의 손실함수에 가까운 손실함수의 값을 줄이는데 성공하였다.
저자가 사용한 2가지 가정을 이용한 출력층의 출력을 다음과 같이 표기한다. (1)
$$ \widehat{Y}(W,X)_{j,i} = q\sum_{p=1}^{\psi }[X_{i}]_{(j,p)}[Z_{i}]_{(j,p)}\prod_{k=1}^{H+1}w_{k}^{(j,p)} $$
Ψ는 input부터 j번째 output까지 경로개수이고 [Xi ](j,p) ∈ R는 j번째 output의 p번째 경로의 i-th sample input datum의 entry를 나타낸다. w (k) (j,p)는 각 층 k에 대하여 j번째 ouput의 p번째 경로에서 사용된 Wk의 entry이다. 마지막으로 [Zi ](j,p) ∈ {0, 1}는 j번째 ouput의 p번째 경로가 active한지 아닌지를 나타낸다.
첫번째 가정은 Z는 성공 확률이 같은 Bernoulli 랜덤 변수라는 것이고, Pr([Zi ](j,p) = 1) = ρ (모든 i, (j,p)에 대해서)는 것이다. 두번째 가정은 Z는 input X와 parameter w에 독립적이라는 것이다.
이 두가지 가정에 따라서 $$ E_{z}[\widehat{Y}(W,X)_{j,i}] = q\sum_{p=1}^{\psi }[X_{i}]_{(j,p)}\rho \prod_{k=1}^{H+1}w_{k}^{(j,p)} $$ 라 쓸 수 있다.
저자들은 이론적으로 nonlinear activation function이 Lprevious(W)에서 사라지고 target function Y도 손실값 Lprevious(W)에서 사라진다는, 즉 data points of Y가 무엇이던간에 손실값은 같다고 결론을 내린다. 그리고 이에 대해 위 가정 두개와 q=ρ^−1라면 deep nonlinear model의 손실함수는 아래 4가지 성질을 가진다는 Corollary를 제시한다.
(i) 비볼록하며 비오목하다.
(ii) 모든 local minima는 global minima다.
(iii) global minima가 아닌 임계점들은 모두 안장점이다.
(iv) rank=p라면, 안장점에서 헤세값은 최소한 하나의 음의 고유값을 가지고, 은닉층이 하나일 때 안장점에서의 헤세값
은 최소한 하나의 음의 고유값을 가진다. 은닉층이 여러 개일땐 음의 고유값을 가지는 안장점의 헤세값은 없다.
Proof Idea and Important lemmas
위에서 이론적으로 가정 두개만을 이용해 이론적으로 이끌어낸 고차원에서 deep nonlinear model의 손실함수의 성질 4가지에 대한 증명을 제시한다. 증명을 위해 local minima에서 1차 미분뿐만 아니라 2차 미분함수까지 사용하여 식 6개를 이끌어 낸다.
그 후 식과 함께 3가지 상황에 대하여 local minima가 global minima와 같을 상황에 대해 보여준다.
3가지 상황은 각각 아래에 기술한다.
(i) : rank(WH · · · W2) = p and dy ≤ p일때
(ii) : rank(WH · · · W2) = p and dy > p일때
(iii) : rank(WH · · · W2) < p일때
Summary
local minima가 global minma와 같을 상황에 대해 이론적으로, 수식적으로 증명하는 논문이였다. 기존의 논문, 이론, Corollary를 더 보편적인 상황에 대해 증명함으로써 실용성을 높인 이론같다. 물론 여전히 두가지 가정을 사용하기에 후속 연구가 필요하지만 poor local minima가 비선형 활성화함수를 deep linear model에 적용할때 생김을 이론적으로 밝힘으로써 모델 훈련에 도움이 될 수 있겠다.
'AI' 카테고리의 다른 글
캐글 타이타닉 생존자 예측 실습(Logistic Regression) (0) | 2022.09.28 |
---|---|
Attention Is All You Need 리뷰 (0) | 2022.09.22 |
Identifying and attacking the saddle point problem in high-dimensional non-convex optimization 리뷰 (0) | 2022.09.20 |
손실함수의 그래프(Training Curve, Loss Landscape)와 최적화 방법 (0) | 2022.09.20 |
Visualizing the Loss Landscape of Neural Nets 리뷰 (0) | 2022.09.19 |