인공지능 대학원 자료 정리 (15) 썸네일형 리스트형 옵티마이저 AMSGRAD (2018, Adam의 불안정성 완화) 관련글 옵티마이저 정리 및 논문 리뷰 Optimizer AMSGRAD (2018) 논문 제목: On the Convergence of Adam and Beyond 연도: 2018 링크: https://arxiv.org/pdf/1904.09237.pdf 관련 개념: 1. Adam 서론 RMSPROP, ADAM, ADAELTA, NADAM과 같은 확률적 옵티마이저들은 Deep network 분야에서 많이 사용되고 있습니다. 하지만, 많은 실생활에서 이러한 알고리즘들은 optimial point 즉, minima에 수렴하지 못했습니다. 이런 문제의 원인은 지수 이동 평균에 있다고 저자들은 주장합니다. 저자들은 Adam을 예시로 들어 Adam 알고리즘으로는 수렴할 수 없는 Convex optimization 환.. [논문 리뷰] QNN (Quantized Neural Network) 이번 논문은 DoReFaNet 이후에 나온 논문입니다. 상당 부분이 DoReFaNet과 심히 유사하여 이것이 과연 새로운 모델이나 기법인지는 저로서는 모르겠습니다... 원문: https://arxiv.org/pdf/1609.07061.pdf Abstract QNN은 가중치와 activation에 1bit만 사용합니다. forward 동안, QNN은 굉장히 적은 양의 메모리를 소모하며, 대부분의 연산들이 bit 단위로 이뤄지기 때문에 연산 속도의 향상을 기대할 수 있습니다. 논문에서는 새롭게 고안된 binary GPU kernel을 이용하면 MNIST dataset에서 7배 향상된 연산 속도를 보여준다고 합니다. 1. Introduction QNN은 딥러닝에서 사용되는 multiply-accumulate .. [논문 리뷰] MCUNet v1 가장 먼저 작성한 논문 리뷰인 만큼 중요한 부분과 그렇지 않은 부분이 섞여있을 수 있습니다. 본 글은 MCUNetv3 글에서 언급된 MCUNet의 초창기 버전에 관한 내용으로써, MCUNet의 근본적인 기술들을 담고 있습니다. 관련 논문: https://arxiv.org/pdf/2007.10319.pdf 정리된 내용: [논문 리뷰] 이진화와 삼진화 (NEURAL NETWORKS WITH FEW MULTIPLICATIONS) 이 글은 여러분들의 이해를 돕기 위한 글쓴이의 개인적인 해석이 들어가 있기 때문에, 논문의 내용에는 없는 부가적인 설명이 대거 들어있음을 알려드립니다. 또한 논문이 나온 시점이 2015인 만큼, 현재의 모델과의 성능적인 차이가 있겠지만, 그 현대 모델들의 기반이 되는 글입니다. 원문: NEURAL NETWORKS WITH FEW MULTIPLICATIONS ABSTRACT 대부분의 딥러닝은 학습 시 많은 시간을 사용합니다. 이 악명 높은 딥러닝은 대부분의 학습 시간을 부동소수점 연산(floating point computation) 그 중에서도 곱셈 연산에 사용합니다. 즉, 실수(부동소수점) 연산을 하는데 시간이 비교적 많이 걸린다는 거죠. 본 논문에서는 대부분의 부동소수점 곱셈 연산을 줄이는 시도를 합.. [논문 리뷰] Binary training의 출발점? (BinaryConnect 방식이란) 이 논문은 딥어닝에서 양자화에 관한 모델들의 기반이 되는 기법들을 소개하며, 잘 알려진 BNN (2016)보다 먼저 나온 논문입니다. 여기서 나오는 **“최신”**이라는 단어는 2015년도 당시의 시점을 기반으로 하며, 따라서 state-of-the-art(최신성능)의 기준 또한 2015 기준으로 되어 있습니다. 논문을 해석하는데 있어, 원활한 이해를 돕기 위해 논문에는 언급되지 않은 정보가 있으니, 참고하여 읽어주세요. 원문: BinaryConnect: Training Deep Neural Networks with binary weights during propagations Abstract 수많은 곱셈 연산자들은 메모리를 많이 차지하고 또 에너지를 많이 소비하기 때문에, 가중치의 양자화 그 중에서도 .. [논문 리뷰] MCU AI 학습 시, 효율적인 메모리 사용 (On-Device Training Under 256KB Memory) 본 글은 다음의 논문을 기반으로 작성되었습니다. https://arxiv.org/pdf/2206.15472.pdf 제가 생각한 중요 개념과 수식이 주된 내용이며, 자세한 내용은 위의 사이트를 참고해주세요. 또한 논문에서 사용된 그림과 표를 블로그에서 사용하기에는 저작권 등의 문제가 있기 때문에, 논문을 옆에 띄워 놓고, 글 중간에 언급되는 그림(Figure)와 표(Table)을 논문에서 참고해주세요. 현 글은 MCUNetv3에 관한 내용으로, 초기 버전 또는 MCUNet의 기반을 알고싶으시면, 아래 글을 참고해주세요. MCUNetv1 Quantization-aware scaling (QAS) 양자화가 gradient update를 왜곡시킨다는 가정 하에, |W| / |G|를 비교하여 양자화하기 전의 값(.. [인공지능 기술] AI 학습 시 메모리 절약 Gradient checkpointing 소개 이 글은 다음 사이트를 참고하여 작성되었습니다. Reference site Understanding memory usage in deep learning models training Shedding some light on the causes behind CUDA out of memory ERROR, and an example on how to reduce by 80% your memory footprint with a few lines of code in Pytorch www.sicara.fr https://github.com/cybertronai/gradient-checkpointing GitHub - cybertronai/gradient-checkpointing: Make huge neural.. 이전 1 2 다음