1. Gradient Checkpointing을 이용한 메모리 사용량 줄이기모델의 훈련 과정에서 가장 많은 메모리를 사용하는 것은, 노드마다 역전파를 통해 Loss를 계산하는 과정이다. 이 때 Gradient Checkpointing 없이 Forward 연산을 수행할 경우, 모든 중간 계산 결과를 누적해서 GPU 메모리에 저장해두기 때문에(나중에 Back Prop에서 쓰기 위해), 메모리를 비효율적으로 쓰게 될수밖에 없다. 일반적인 Neural Net에서 Layer Depth가 주로 메모리 사용량에 영향을 미치겠지만, 특히 RNN계열은 체크포인팅을 사용하지 않으면 치명적이다. RNN계열(LSTM, GRU)에서 Gradient Checkpointing을 사용하지 않으면 각 Time Step 마다 계속 값을..