본문 바로가기

반응형

인공지능 대학원 자료 정리

(15)
옵티마이저 설명 SAM: Sharpness-Aware Minimization (2020, training loss를 이용한 일반화 성능 올리기) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Optimizer_Name (연도) 논문 제목: Sharpness-Aware Minimization for Efficiently Improving Generalization 연도: 2020 링크: https://arxiv.org/abs/2010.01412 관련 개념: Generalization, Geometry of loss landscape, 모집단, 표본 서론 블로그를 포스팅하는 2023년도 기준으로, 현대의 DNN 기반의 인공지능은 수많은 분야(task)에서 기존의 기계학습 방법보다 뛰어난 성능을 보인다. 이 DNN 기반의 인공지능은 파라미터의 개수가 늘어남에 따라 성능이 올라가는 경향을 보이는데(반드시는 아님), 최근의 인공지능은 필요 이상의..
옵티마이저 정리 및 논문 리뷰 (2023-10-29 수정) 이 포스트는 이 블로그에 올라온 optimizer를 분류하여 정리해 놓은 포스트이다. 이 포스트에서 사용되는 용어로는 , 가 있다. 는 옵티마이저를 도와주는 기법으로, '조금 더 나은 성능을 위해 기존의 optimizer와 함께 사용할 수 있는 기법'이라고 할 수 있다. 는 정확도 등의 성능을 조금 포기하더라도, 메모리를 덜 사용하는 optimizer를 의미한다.(성능이 반드시 떨어지는 것은 아니다.) 포스팅의 편안함을 위해 연도 순으로 정렬돼 있지는 않다. Optimizer warpper Helper Key words (2020) SAM Optimizer Optimizer Key words (2019) SM3 , (2018) Adafactor , (2018) AMSGRAD (2019) RAdam (20..
ImageNet 다운로드에서 사용하기까지 [Kaggle 이용] ImageNet을 다운하고, PyTorch에서 사용하는 방법까지를 기술한 내용입니다. 명료하게 나와있는 블로그가 없어 직접 글을 쓰게 되었습니다. 사용한 OS는 Linux 기반인 Ubuntu입니다. Kaggle을 사용하여 ImageNet을 다운 받고, PyTorch에서 이를 사용하는 방법을 기술합니다. 아래의 과정을 전부 따라해야 정상적으로 ImageNet dataset을 사용할 수 있습니다. 참고: https://towardsdatascience.com/downloading-and-using-the-imagenet-dataset-with-pytorch-f0908437c4be Downloading and Using the ImageNet Dataset with PyTorch Train your image..
옵티마이저 Lookahead (2019, 안정적인 학습 도모) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Lookahead (2019) 논문 제목: Lookahead Optimizer: k steps forward, 1 step back 연도: 2019 링크: https://arxiv.org/pdf/1907.08610.pdf#page=10&zoom=100,144,604 관련 개념: 서론 현재 나온 수많은 optimizer는 SGD에 그 기반을 두고 있습니다. 예를 들어 Momentum이라고 알려진 Polyak heavy-ball 알고리즘은 SGD에 관성이라는 개념을 도입했으며, Adam이나 AdaGrad 등은 개별적인 learning rate라는 개념을 SGD에 도입했습니다. 이러한 알고리즘은 안정적인 학습을 위해 hyperparameter를 직접 조정..
옵티마이저 RAdam (2019, Adam의 불안정성 완화) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer RAdam (2019) 논문 제목: ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND 연도: 2019 링크: https://arxiv.org/pdf/1908.03265.pdf 관련 개념: 1. Adam 2. variance 3. learning rate warm-up 서론 Adam이라는 optimizer는 단점에도 불구하고 넓은 분야에서 사용되고 있습니다. Adam의 대표적인 단점은 다음과 같습니다. 1. 학습률이 기하급수적으로 늘 수도 있다. 2. 학습을 너무 빨리 하여, local minima에 빠르게 도달할 수 있다. RAdam은 2번의 문제를 완화한 optimizer로, 초기에 불안정하게 학..
옵티마이저 종류들 글 제목: Descending through a Crowded Valley — Benchmarking Deep Learning Optimizers 연도: 2021 링크: https://arxiv.org/pdf/2007.01547.pdf 모든 optimizers가 나와있는 것은 아니지만, 현존하는 optimizer들에는 어떤 것이 있는지 그리고 각각의 특성과 성능은 어떤지 알 수 있는 글입니다. 17page에 다양한 optimizers가 나와 있으니 참고하세요.
옵티마이저 SM3 (2019, 메모리 효율적) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer SM3 (2019) 논문 제목: Memory-Efficient Adaptive Optimization 연도: 2019 링크: https://arxiv.org/pdf/1901.11150.pdf https://arxiv.org/pdf/1901.11150v1.pdf 관련 개념: 1. 차원 2. Adafactor 서론 기존의 Adam 계열의 optimizers는 second momentum 항 때문에 memory overhead가 크다고 합니다. 저자는 효율적이고, 쉽게 적용이 가능하면서 memory overhead가 적은 새로운 adaptive optimization을 소개합니다. 저자가 고안한 방법은 adaptive의 성질을 만족한다고 합니다. 또한 수..
옵티마이저 Adafactor (2018, 메모리 효율적) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Adafactor (2018) 논문 제목: Adafactor: Adaptive Learning Rates with Sublinear Memory Cost 연도: 2018 링크: https://arxiv.org/pdf/1804.04235.pdf 관련 개념: 1. Matrix factorization 2. Adam 3. Rank 4. SVD 5. KL-divergence 서론 확률적 optimizers such as RMSProp, Adam, Adadelta는 지수 이동 평균 항(v)을 갖고 있으며, 이 항은 훈련 시 계속해서 저장되어야 합니다. v의 개수는 weight나 bias와 같은 parameter의 수와 동일하며, 따라서 parameter가 N..

반응형