Flat minima of the loss landscape and the geometry of the solution space
작성자 :
@Anonymous
딥 러닝에서 과적합(overfitting)을 방지하고 training set에 없는 데이터에 대해서도 올바른 결과를 낼 수 있는 일반화(generalization) 능력은 평평한 최소점(flat minima)와 깊은 관련이 있다고 여겨진다. 이는 다음의 유명한 그림에서 보듯, 비교적 간단한 직관으로 support된다.
NeurIPS의 전신인 NIPS 1994에서 S. Hochreiter에 의해 이 가설이 처음으로 제시될 때에는, flat minima를 선호하도록 명시적으로 bias된 gradient descent 알고리즘을 제안함으로써 모델이 flat minima를 찾아가게 하고, 그 때 generalization error가 낮아짐을 보였다.
딥 러닝이 다시 각광받은 이후인 보다 최근 시기에는, stochastic gradient descent (SGD)를 비롯한 널리 사용되는 optimizer들 자체가 그 통계적 성질상 implicit하게 flat minima를 선호하도록 bias를 가지고 있다는 것이 보고되고 있다. SGD는 단지 batch size를 절약하기 때문에 좋은 것이 아니라, 최종적으로 도달하게 되는 학습 결과 측면에서도 이점이 있는 것이다.
Sharpness-aware minimization (SAM)
Entropic-SGD
한편, 신경망에 대한 보다 고전적인 연구들에서는, 주어진 과업의 크기 대비 신경망의 성능 내지는 용량을 분석하기 위해 분류(classification) 문제의 성공가능성, 그리고 분류에 성공하는 가중치들의 집합 즉 해공간(solution space)의 연결 구조를 통계물리적으로 분석하였다.
앞서 소개한 국소적(local) 성질로서의 flat minima는. 광역적 성질인 solution space geometry와는 크게 관련되어 있지 않아 보인다. 그러나 단순히 loss의 Hessian이 작은 것뿐만 아니라 low-loss region이 해공간의 상당 부분을 차지할 만큼 매우 넓게 연결되어 있다면, loss function의 그러한 구조는 어느정도 광역적 성질이 된다. 그리고 이는 이는 mode connectivity라는, 2010년대 최후반부터 딥 러닝에서 널리 보고되는 중요한 경험적 관찰과 자연스럽게 연결된다. 해공간의 기하를


