3.3 GPU 병렬화 기법3.3.1 데이터 병렬 처리(Data Parallelism, DP)전체 데이터를 작은 덩어리 여러 개로 나눠 각각을 서로 다른 GPU에서 동시에 처리학습시간 크게 단축, 메모리 제약 없이 대규모 데이터셋을 효과적으로 다룰 수 있음모든 GPU의 VRAM을 균등하게 활용하지 못함 → 모델 병렬화 기법이 등장 3.3.2 모델 병렬화(Model Parallelism, MP)대규모 신경망 모델을 여러 GPU에서 나누어 처리하는 방식모델을 수직으로 분할해서 처리(수직 모델 병렬화)단일 GPU로는 처리하기 어려운 대규모 모델을 효율적으로 학습하고 실행특정 시점에 대부분의 GPU가 놀고 있을 수 있음기기 간 데이터 복사로 인한 부담이 전체적인 학습속도를 저하시킬 수 있음→ 파이프라인 병렬화 등..