Adafactor (1) 썸네일형 리스트형 옵티마이저 Adafactor (2018, 메모리 효율적) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Adafactor (2018) 논문 제목: Adafactor: Adaptive Learning Rates with Sublinear Memory Cost 연도: 2018 링크: https://arxiv.org/pdf/1804.04235.pdf 관련 개념: 1. Matrix factorization 2. Adam 3. Rank 4. SVD 5. KL-divergence 서론 확률적 optimizers such as RMSProp, Adam, Adadelta는 지수 이동 평균 항(v)을 갖고 있으며, 이 항은 훈련 시 계속해서 저장되어야 합니다. v의 개수는 weight나 bias와 같은 parameter의 수와 동일하며, 따라서 parameter가 N.. 이전 1 다음