본문 바로가기

반응형

인공지능

(4)
옵티마이저 설명 SAM: Sharpness-Aware Minimization (2020, training loss를 이용한 일반화 성능 올리기) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Optimizer_Name (연도) 논문 제목: Sharpness-Aware Minimization for Efficiently Improving Generalization 연도: 2020 링크: https://arxiv.org/abs/2010.01412 관련 개념: Generalization, Geometry of loss landscape, 모집단, 표본 서론 블로그를 포스팅하는 2023년도 기준으로, 현대의 DNN 기반의 인공지능은 수많은 분야(task)에서 기존의 기계학습 방법보다 뛰어난 성능을 보인다. 이 DNN 기반의 인공지능은 파라미터의 개수가 늘어남에 따라 성능이 올라가는 경향을 보이는데(반드시는 아님), 최근의 인공지능은 필요 이상의..
옵티마이저 Lookahead (2019, 안정적인 학습 도모) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer Lookahead (2019) 논문 제목: Lookahead Optimizer: k steps forward, 1 step back 연도: 2019 링크: https://arxiv.org/pdf/1907.08610.pdf#page=10&zoom=100,144,604 관련 개념: 서론 현재 나온 수많은 optimizer는 SGD에 그 기반을 두고 있습니다. 예를 들어 Momentum이라고 알려진 Polyak heavy-ball 알고리즘은 SGD에 관성이라는 개념을 도입했으며, Adam이나 AdaGrad 등은 개별적인 learning rate라는 개념을 SGD에 도입했습니다. 이러한 알고리즘은 안정적인 학습을 위해 hyperparameter를 직접 조정..
옵티마이저 RAdam (2019, Adam의 불안정성 완화) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer RAdam (2019) 논문 제목: ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND 연도: 2019 링크: https://arxiv.org/pdf/1908.03265.pdf 관련 개념: 1. Adam 2. variance 3. learning rate warm-up 서론 Adam이라는 optimizer는 단점에도 불구하고 넓은 분야에서 사용되고 있습니다. Adam의 대표적인 단점은 다음과 같습니다. 1. 학습률이 기하급수적으로 늘 수도 있다. 2. 학습을 너무 빨리 하여, local minima에 빠르게 도달할 수 있다. RAdam은 2번의 문제를 완화한 optimizer로, 초기에 불안정하게 학..
[인공지능 기술] AI 학습 시 메모리 절약 Gradient checkpointing 소개 이 글은 다음 사이트를 참고하여 작성되었습니다. Reference site Understanding memory usage in deep learning models training Shedding some light on the causes behind CUDA out of memory ERROR, and an example on how to reduce by 80% your memory footprint with a few lines of code in Pytorch www.sicara.fr https://github.com/cybertronai/gradient-checkpointing GitHub - cybertronai/gradient-checkpointing: Make huge neural..

반응형