728x90
반응형

파이프라인 2

[Day 2] LLM & RAG 실전 챌린지 - 데이터 로딩, 텍스트 분할

* 라마인덱스 주요 파이프라인데이터 로딩 -> 텍스트 분할 -> 인덱싱 -> 저장 -> 쿼리 -> 검색​​2.1 개발 환경 구축하기​2.2 데이터 로딩데이터 커넥터 : 다양한 데이터 소스에서 정보를 가져오는 역할데이터 리더 : 가져온 데이터를 어떻게 처리할 것인지, 처리 방식에 중점을 두는 도구​2.3 텍스트 분할문서와 노드 : 라마인덱스에서 데이터를 구조화하고 관리하는 핵심 요소, 효율적인 인덱싱과 검색을 위한 기반 a. 문서 : 원시 데이터를 처리 가능한 형태로 변환한 데이터의 기본 단위 b. 노드 : 문서를 더 작은 단위로 세분화하여 검색 및 분석할 수 있는 기본 단위​ 토큰 단위 분할 : 문서를 일정한 길이의 토큰 단위로 나누는 방식문장 단위 분할 : 문서를 각 문장을 기준으로 나누는 방식의미 단..

프로그래밍/LLM 2025.09.07

[Day6] 한 권으로 LLM 온라인 스터디 1기 - GPU 병렬화 기법

3.3 GPU 병렬화 기법3.3.1 데이터 병렬 처리(Data Parallelism, DP)전체 데이터를 작은 덩어리 여러 개로 나눠 각각을 서로 다른 GPU에서 동시에 처리학습시간 크게 단축, 메모리 제약 없이 대규모 데이터셋을 효과적으로 다룰 수 있음모든 GPU의 VRAM을 균등하게 활용하지 못함 → 모델 병렬화 기법이 등장 3.3.2 모델 병렬화(Model Parallelism, MP)대규모 신경망 모델을 여러 GPU에서 나누어 처리하는 방식모델을 수직으로 분할해서 처리(수직 모델 병렬화)단일 GPU로는 처리하기 어려운 대규모 모델을 효율적으로 학습하고 실행특정 시점에 대부분의 GPU가 놀고 있을 수 있음기기 간 데이터 복사로 인한 부담이 전체적인 학습속도를 저하시킬 수 있음→ 파이프라인 병렬화 등..

프로그래밍/LLM 2025.01.25
728x90
반응형