local minima
Deep Learning without Poor Local Minima 리뷰
링크: https://arxiv.org/pdf/1605.07110.pdf Introduction 딥러닝은 많은 분야에서 사용되지만 층이 깊은 모델은 비볼록 최적화 함수를 가지기에 최적화 하기 힘들어 보인다. 딥러닝이 현업에서 많이 사용되긴 하지만 최적화가 쉬워지는지는 이유를 이론적으로는 모른다. 이 논문에선 기존의 deep linear network에 관한 Corollary를 증명하고 deep nonlinear networks의 미해결문제를 해결한다. 그리고 기존의 Corollary와 미해결문제에 관한 더 일반적이고 더 강한 statements를 증명한다. Deep linear neural networks deep linear model의 최적화는 deep nonlinear model과 유사한 점들이 있..
Identifying and attacking the saddle point problem in high-dimensional non-convex optimization 리뷰
링크: https://arxiv.org/pdf/1406.2572.pdf Intro 저차원에서의 기하학에 대한 경험을 고차원으로 적용할수 없다. 왜나하면 error function들은 차원이 커질수록 안장점의 개수는 지수적으로 증가하기 때문이다. 그리고 통계학, 랜덤 행렬이론, 신경망 이론, 선험적인 증거들로 비볼록함수를 최소화 하는것은 local minima의 문제가 아닌 안장점에서 비롯됨을 보인다. 특히, 고차원에서 안장점은 high error plateaus로 둘러 쌓여있어 학습을 극도로 낮추고 local minimum이 있다는 착각을 하게한다. 그래서 저자들은 기존의 SGD, quasi-Newton과는 다른 2차원 최적화 방법인 saddle-free newton method로 고차원에서 안장점을 탈..