728x90
반응형
4.1 개발 환경 구축하기
4.2 실습용 데이터 준비
4.3 PDF 파일 다루기
4.3.2 텍스트 분할
- 텍스트 분할 = 청킹 = 긴 문장을 짧게 나누어 노드에 담는 작업
- 하나의 모큐먼트 안에 여러 의미가 뒤섞여 있을 수 있으므로, 의미의 일관성을 유지하며 인덱싱을 하려면 텍스트를 별도로 분할하는 절차가 필요함
- 잘 분할된 데이터는 RAG의 답변 성능에 큰 영향을 미치며, 답변 정확도 뿐 아니라 답변 속도에도 영향을 준다.
4.3.3 인덱싱
- 데이터를 구조화하여 빠르게 검색할 수 있도록 하는 과정
- 라마인덱스에서는 문서를 노드로 분할한 뒤, 각 노드의 의미를 벡터 임베딩으로 변환해서 저장
- 인덱스가 잘 구축되어 있으면 데이터를 효율적으로 건색하고 관리할 수 있음
4.4 텍스트 파일 다루기
4.5 CSV 파일 다루기
4.6 HWP 파일 다루기
728x90
반응형
'프로그래밍 > LLM' 카테고리의 다른 글
[Day 7] LLM & RAG 실전 챌린지 - 다중모달 RAG 실습 (0) | 2025.09.07 |
---|---|
[Day 5] LLM & RAG 실전 챌린지 - 파인콘, 쿼드런트 (0) | 2025.09.07 |
[Day 4] LLM & RAG 실전 챌린지 - 벡터스토어, 크로마 (0) | 2025.09.07 |
[Day 3] LLM & RAG 실전 챌린지 - 인덱싱, 저장하기, 쿼리 (0) | 2025.09.07 |
[Day 2] LLM & RAG 실전 챌린지 - 데이터 로딩, 텍스트 분할 (0) | 2025.09.07 |