728x90
    
    
  반응형
    
    
    
  * 라마인덱스 주요 파이프라인
데이터 로딩 -> 텍스트 분할 -> 인덱싱 -> 저장 -> 쿼리 -> 검색
2.1 개발 환경 구축하기
2.2 데이터 로딩
- 데이터 커넥터 : 다양한 데이터 소스에서 정보를 가져오는 역할
 - 데이터 리더 : 가져온 데이터를 어떻게 처리할 것인지, 처리 방식에 중점을 두는 도구
 
2.3 텍스트 분할
- 문서와 노드 : 라마인덱스에서 데이터를 구조화하고 관리하는 핵심 요소, 효율적인 인덱싱과 검색을 위한 기반
 
a. 문서 : 원시 데이터를 처리 가능한 형태로 변환한 데이터의 기본 단위
b. 노드 : 문서를 더 작은 단위로 세분화하여 검색 및 분석할 수 있는 기본 단위
- 토큰 단위 분할 : 문서를 일정한 길이의 토큰 단위로 나누는 방식
 - 문장 단위 분할 : 문서를 각 문장을 기준으로 나누는 방식
 - 의미 단위 분할 : 문맥의 의미를 고려하여 텍스트를 적절한 단위로 분할하는 방식
 
[ 텍스트 분할 비교 ]
| 
 분할방식 
 | 
 장점 
 | 
 단점 
 | 
 적합한 도메인 
 | 
| 
 토큰 단위 분할 
 | 
 - 일정한 크기로 분할 
- 메모리 관리 용이 
- 대용량 데이터 처리에 효율적 
 | 
 - 의미 왜곡 가능 
- 중요한 정보가 누락될 가능성 
 | 
 - 로그 데이터 
- 대용량 문서 
 | 
| 
 문장 단위 분할 
 | 
 - 의미 왜곡 적음 
- 자연스러운 흐름 유지 
 | 
 - 문장 길이 불균형으로 메모리 관리 어려움 
- 긴 문장 문제 발생 가능성 
 | 
 - 뉴스 기사 
- 일반 문서 
 | 
| 
 의미 단위 분할 
 | 
 - 검색 정확도 향상 
- 중요한 내용 강조 가능 
 | 
 - 계산 산비용 증가 
- 모델 델성능에 의존 
 | 
 - 법률 문서 
- 의학 논문 
- 학술 자료 
 | 

728x90
    
    
  반응형
    
    
    
  '프로그래밍 > LLM' 카테고리의 다른 글
| [Day 4] LLM & RAG 실전 챌린지 - 벡터스토어, 크로마 (0) | 2025.09.07 | 
|---|---|
| [Day 3] LLM & RAG 실전 챌린지 - 인덱싱, 저장하기, 쿼리 (0) | 2025.09.07 | 
| [Day 1] LLM & RAG 실전 챌린지 - 라마 인덱스 사용환경 구축 (0) | 2025.09.07 | 
| [Day 0] LLM & RAG 실전 챌린지 - 준비 (0) | 2025.09.07 | 
| [Day15] 한 권으로 LLM 온라인 스터디 1기 - vLLM 서빙 (1) | 2025.01.26 |