본문 바로가기

반응형

옵티마이저

(4)
옵티마이저 Lookahead (2019, 안정적인 학습 도모) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Lookahead (2019) 논문 제목: Lookahead Optimizer: k steps forward, 1 step back 연도: 2019 링크: https://arxiv.org/pdf/1907.08610.pdf#page=10&zoom=100,144,604 관련 개념: 서론 현재 나온 수많은 optimizer는 SGD에 그 기반을 두고 있습니다. 예를 들어 Momentum이라고 알려진 Polyak heavy-ball 알고리즘은 SGD에 관성이라는 개념을 도입했으며, Adam이나 AdaGrad 등은 개별적인 learning rate라는 개념을 SGD에 도입했습니다. 이러한 알고리즘은 안정적인 학습을 위해 hyperparameter를 직접 조정..
옵티마이저 SM3 (2019, 메모리 효율적) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer SM3 (2019) 논문 제목: Memory-Efficient Adaptive Optimization 연도: 2019 링크: https://arxiv.org/pdf/1901.11150.pdf https://arxiv.org/pdf/1901.11150v1.pdf 관련 개념: 1. 차원 2. Adafactor 서론 기존의 Adam 계열의 optimizers는 second momentum 항 때문에 memory overhead가 크다고 합니다. 저자는 효율적이고, 쉽게 적용이 가능하면서 memory overhead가 적은 새로운 adaptive optimization을 소개합니다. 저자가 고안한 방법은 adaptive의 성질을 만족한다고 합니다. 또한 수..
옵티마이저 Adafactor (2018, 메모리 효율적) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Adafactor (2018) 논문 제목: Adafactor: Adaptive Learning Rates with Sublinear Memory Cost 연도: 2018 링크: https://arxiv.org/pdf/1804.04235.pdf 관련 개념: 1. Matrix factorization 2. Adam 3. Rank 4. SVD 5. KL-divergence 서론 확률적 optimizers such as RMSProp, Adam, Adadelta는 지수 이동 평균 항(v)을 갖고 있으며, 이 항은 훈련 시 계속해서 저장되어야 합니다. v의 개수는 weight나 bias와 같은 parameter의 수와 동일하며, 따라서 parameter가 N..
옵티마이저 AMSGRAD (2018, Adam의 불안정성 완화) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer AMSGRAD (2018) 논문 제목: On the Convergence of Adam and Beyond 연도: 2018 링크: https://arxiv.org/pdf/1904.09237.pdf 관련 개념: 1. Adam 서론 RMSPROP, ADAM, ADAELTA, NADAM과 같은 확률적 옵티마이저들은 Deep network 분야에서 많이 사용되고 있습니다. 하지만, 많은 실생활에서 이러한 알고리즘들은 optimial point 즉, minima에 수렴하지 못했습니다. 이런 문제의 원인은 지수 이동 평균에 있다고 저자들은 주장합니다. 저자들은 Adam을 예시로 들어 Adam 알고리즘으로는 수렴할 수 없는 Convex optimization 환..

반응형