optimizers (2) 썸네일형 리스트형 옵티마이저 RAdam (2019, Adam의 불안정성 완화) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer RAdam (2019) 논문 제목: ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND 연도: 2019 링크: https://arxiv.org/pdf/1908.03265.pdf 관련 개념: 1. Adam 2. variance 3. learning rate warm-up 서론 Adam이라는 optimizer는 단점에도 불구하고 넓은 분야에서 사용되고 있습니다. Adam의 대표적인 단점은 다음과 같습니다. 1. 학습률이 기하급수적으로 늘 수도 있다. 2. 학습을 너무 빨리 하여, local minima에 빠르게 도달할 수 있다. RAdam은 2번의 문제를 완화한 optimizer로, 초기에 불안정하게 학.. 옵티마이저 SM3 (2019, 메모리 효율적) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer SM3 (2019) 논문 제목: Memory-Efficient Adaptive Optimization 연도: 2019 링크: https://arxiv.org/pdf/1901.11150.pdf https://arxiv.org/pdf/1901.11150v1.pdf 관련 개념: 1. 차원 2. Adafactor 서론 기존의 Adam 계열의 optimizers는 second momentum 항 때문에 memory overhead가 크다고 합니다. 저자는 효율적이고, 쉽게 적용이 가능하면서 memory overhead가 적은 새로운 adaptive optimization을 소개합니다. 저자가 고안한 방법은 adaptive의 성질을 만족한다고 합니다. 또한 수.. 이전 1 다음