프로그래밍/LLM
[Day 6] LLM & RAG 실전 챌린지 - 텍스트 문서를 이용한 RAG 실습
31weeks
2025. 9. 7. 19:52
728x90
반응형
4.1 개발 환경 구축하기
4.2 실습용 데이터 준비
4.3 PDF 파일 다루기
4.3.2 텍스트 분할
- 텍스트 분할 = 청킹 = 긴 문장을 짧게 나누어 노드에 담는 작업
- 하나의 모큐먼트 안에 여러 의미가 뒤섞여 있을 수 있으므로, 의미의 일관성을 유지하며 인덱싱을 하려면 텍스트를 별도로 분할하는 절차가 필요함
- 잘 분할된 데이터는 RAG의 답변 성능에 큰 영향을 미치며, 답변 정확도 뿐 아니라 답변 속도에도 영향을 준다.
4.3.3 인덱싱
- 데이터를 구조화하여 빠르게 검색할 수 있도록 하는 과정
- 라마인덱스에서는 문서를 노드로 분할한 뒤, 각 노드의 의미를 벡터 임베딩으로 변환해서 저장
- 인덱스가 잘 구축되어 있으면 데이터를 효율적으로 건색하고 관리할 수 있음
4.4 텍스트 파일 다루기
4.5 CSV 파일 다루기
4.6 HWP 파일 다루기
728x90
반응형