프로그래밍/LLM

[Day 2] LLM & RAG 실전 챌린지 - 데이터 로딩, 텍스트 분할

31weeks 2025. 9. 7. 19:37
728x90
반응형

* 라마인덱스 주요 파이프라인

데이터 로딩 -> 텍스트 분할 -> 인덱싱 -> 저장 -> 쿼리 -> 검색

2.1 개발 환경 구축하기

2.2 데이터 로딩

  • 데이터 커넥터 : 다양한 데이터 소스에서 정보를 가져오는 역할
  • 데이터 리더 : 가져온 데이터를 어떻게 처리할 것인지, 처리 방식에 중점을 두는 도구

2.3 텍스트 분할

  • 문서와 노드 : 라마인덱스에서 데이터를 구조화하고 관리하는 핵심 요소, 효율적인 인덱싱과 검색을 위한 기반

a. 문서 : 원시 데이터를 처리 가능한 형태로 변환한 데이터의 기본 단위

b. 노드 : 문서를 더 작은 단위로 세분화하여 검색 및 분석할 수 있는 기본 단위

 

  • 토큰 단위 분할 : 문서를 일정한 길이의 토큰 단위로 나누는 방식
  • 문장 단위 분할 : 문서를 각 문장을 기준으로 나누는 방식
  • 의미 단위 분할 : 문맥의 의미를 고려하여 텍스트를 적절한 단위로 분할하는 방식

 

[ 텍스트 분할 비교 ]

분할방식
장점
단점
적합한 도메인
토큰 단위 분할
- 일정한 크기로 분할
- 메모리 관리 용이
- 대용량 데이터 처리에 효율적
- 의미 왜곡 가능
- 중요한 정보가 누락될 가능성
- 로그 데이터
- 대용량 문서
문장 단위 분할
- 의미 왜곡 적음
- 자연스러운 흐름 유지
- 문장 길이 불균형으로 메모리 관리 어려움
- 긴 문장 문제 발생 가능성
- 뉴스 기사
- 일반 문서
의미 단위 분할
- 검색 정확도 향상
- 중요한 내용 강조 가능
- 계산 산비용 증가
- 모델 델성능에 의존
- 법률 문서
- 의학 논문
- 학술 자료

 

텍스트 분할

 

728x90
반응형