optimizer (5) 썸네일형 리스트형 옵티마이저 설명 SAM: Sharpness-Aware Minimization (2020, training loss를 이용한 일반화 성능 올리기) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Optimizer_Name (연도) 논문 제목: Sharpness-Aware Minimization for Efficiently Improving Generalization 연도: 2020 링크: https://arxiv.org/abs/2010.01412 관련 개념: Generalization, Geometry of loss landscape, 모집단, 표본 서론 블로그를 포스팅하는 2023년도 기준으로, 현대의 DNN 기반의 인공지능은 수많은 분야(task)에서 기존의 기계학습 방법보다 뛰어난 성능을 보인다. 이 DNN 기반의 인공지능은 파라미터의 개수가 늘어남에 따라 성능이 올라가는 경향을 보이는데(반드시는 아님), 최근의 인공지능은 필요 이상의.. 옵티마이저 Lookahead (2019, 안정적인 학습 도모) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Lookahead (2019) 논문 제목: Lookahead Optimizer: k steps forward, 1 step back 연도: 2019 링크: https://arxiv.org/pdf/1907.08610.pdf#page=10&zoom=100,144,604 관련 개념: 서론 현재 나온 수많은 optimizer는 SGD에 그 기반을 두고 있습니다. 예를 들어 Momentum이라고 알려진 Polyak heavy-ball 알고리즘은 SGD에 관성이라는 개념을 도입했으며, Adam이나 AdaGrad 등은 개별적인 learning rate라는 개념을 SGD에 도입했습니다. 이러한 알고리즘은 안정적인 학습을 위해 hyperparameter를 직접 조정.. 옵티마이저 RAdam (2019, Adam의 불안정성 완화) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer RAdam (2019) 논문 제목: ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND 연도: 2019 링크: https://arxiv.org/pdf/1908.03265.pdf 관련 개념: 1. Adam 2. variance 3. learning rate warm-up 서론 Adam이라는 optimizer는 단점에도 불구하고 넓은 분야에서 사용되고 있습니다. Adam의 대표적인 단점은 다음과 같습니다. 1. 학습률이 기하급수적으로 늘 수도 있다. 2. 학습을 너무 빨리 하여, local minima에 빠르게 도달할 수 있다. RAdam은 2번의 문제를 완화한 optimizer로, 초기에 불안정하게 학.. 옵티마이저 Adafactor (2018, 메모리 효율적) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Adafactor (2018) 논문 제목: Adafactor: Adaptive Learning Rates with Sublinear Memory Cost 연도: 2018 링크: https://arxiv.org/pdf/1804.04235.pdf 관련 개념: 1. Matrix factorization 2. Adam 3. Rank 4. SVD 5. KL-divergence 서론 확률적 optimizers such as RMSProp, Adam, Adadelta는 지수 이동 평균 항(v)을 갖고 있으며, 이 항은 훈련 시 계속해서 저장되어야 합니다. v의 개수는 weight나 bias와 같은 parameter의 수와 동일하며, 따라서 parameter가 N.. 옵티마이저 AMSGRAD (2018, Adam의 불안정성 완화) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer AMSGRAD (2018) 논문 제목: On the Convergence of Adam and Beyond 연도: 2018 링크: https://arxiv.org/pdf/1904.09237.pdf 관련 개념: 1. Adam 서론 RMSPROP, ADAM, ADAELTA, NADAM과 같은 확률적 옵티마이저들은 Deep network 분야에서 많이 사용되고 있습니다. 하지만, 많은 실생활에서 이러한 알고리즘들은 optimial point 즉, minima에 수렴하지 못했습니다. 이런 문제의 원인은 지수 이동 평균에 있다고 저자들은 주장합니다. 저자들은 Adam을 예시로 들어 Adam 알고리즘으로는 수렴할 수 없는 Convex optimization 환.. 이전 1 다음