Deepspeed 배치 사이즈 관련 파라미터 정리

Deepspeed를 활용하여 multi-gpu로 분산 훈련을 진행할 때 배치 사이즈의 개념과 파라미터로 들어가는 값들에 대해서 정리해보았다.

DeepSpeed Configuration JSON

DeepSpeed is a deep learning optimization library that makes distributed training easy, efficient, and effective.

www.deepspeed.ai

train_batch_size = (train_micro_batch_size_per_gpu) * (gradient_accumulation) * (number of GPUs)

예를 들어, 다음과 같은 조건으로 훈련을 진행한다면,

하나의 GPU는 1개의 데이터 샘플을 처리하고, gradient를 64번 누적한다. 즉, 하나의 GPU는 64개의 데이터 샘플을 보고 그에 대한 gradient를 누적한 후에 모델을 업데이트한다. (1 * 64)
16개의 GPU가 있으므로, 16 x 64 = 1024개의 데이터 샘플이 실질적으로 한 번의 모델 업데이트에 사용된다. (1 * 64 *16)
총 샘플 수가 320,000개이므로 1 epoch을 끝내기 위해서는 320000/1024 = 312.5 번의 업데이트가 필요하다.

[debug] tokenizer special token 추가 시 임베딩 사이즈 조절 하기 (0)	2024.07.30
머신러닝 프로덕션 코드를 구성하는 방법 (0)	2023.06.25
C++에서 ONNX runtime 사용하기 (0)	2023.06.11
Torchserve 사용 방법과 경로 설정 (0)	2023.04.20
[MLops 기초] 프로덕션 환경에서의 머신러닝 시스템이란? (0)	2023.04.18

yooonlp