프로그래밍/LLM

[Day 6] LLM & RAG 실전 챌린지 - 텍스트 문서를 이용한 RAG 실습

31weeks 2025. 9. 7. 19:52
728x90
반응형

4.1 개발 환경 구축하기

4.2 실습용 데이터 준비

4.3 PDF 파일 다루기

4.3.2 텍스트 분할

  • 텍스트 분할 = 청킹 = 긴 문장을 짧게 나누어 노드에 담는 작업
  • 하나의 모큐먼트 안에 여러 의미가 뒤섞여 있을 수 있으므로, 의미의 일관성을 유지하며 인덱싱을 하려면 텍스트를 별도로 분할하는 절차가 필요함
  • 잘 분할된 데이터는 RAG의 답변 성능에 큰 영향을 미치며, 답변 정확도 뿐 아니라 답변 속도에도 영향을 준다.

4.3.3 인덱싱

  • 데이터를 구조화하여 빠르게 검색할 수 있도록 하는 과정
  • 라마인덱스에서는 문서를 노드로 분할한 뒤, 각 노드의 의미를 벡터 임베딩으로 변환해서 저장
  • 인덱스가 잘 구축되어 있으면 데이터를 효율적으로 건색하고 관리할 수 있음

4.4 텍스트 파일 다루기

4.5 CSV 파일 다루기

4.6 HWP 파일 다루기

 

 

CSV 파일 다루기

 

 

Simple Direct Reader 이용하기

 

728x90
반응형