728x90
반응형

텍스트분할 2

[Day 6] LLM & RAG 실전 챌린지 - 텍스트 문서를 이용한 RAG 실습

4.1 개발 환경 구축하기​4.2 실습용 데이터 준비​4.3 PDF 파일 다루기4.3.2 텍스트 분할텍스트 분할 = 청킹 = 긴 문장을 짧게 나누어 노드에 담는 작업하나의 모큐먼트 안에 여러 의미가 뒤섞여 있을 수 있으므로, 의미의 일관성을 유지하며 인덱싱을 하려면 텍스트를 별도로 분할하는 절차가 필요함잘 분할된 데이터는 RAG의 답변 성능에 큰 영향을 미치며, 답변 정확도 뿐 아니라 답변 속도에도 영향을 준다.​4.3.3 인덱싱데이터를 구조화하여 빠르게 검색할 수 있도록 하는 과정라마인덱스에서는 문서를 노드로 분할한 뒤, 각 노드의 의미를 벡터 임베딩으로 변환해서 저장인덱스가 잘 구축되어 있으면 데이터를 효율적으로 건색하고 관리할 수 있음​​4.4 텍스트 파일 다루기​4.5 CSV 파일 다루기​4.6 ..

프로그래밍/LLM 2025.09.07

[Day 2] LLM & RAG 실전 챌린지 - 데이터 로딩, 텍스트 분할

* 라마인덱스 주요 파이프라인데이터 로딩 -> 텍스트 분할 -> 인덱싱 -> 저장 -> 쿼리 -> 검색​​2.1 개발 환경 구축하기​2.2 데이터 로딩데이터 커넥터 : 다양한 데이터 소스에서 정보를 가져오는 역할데이터 리더 : 가져온 데이터를 어떻게 처리할 것인지, 처리 방식에 중점을 두는 도구​2.3 텍스트 분할문서와 노드 : 라마인덱스에서 데이터를 구조화하고 관리하는 핵심 요소, 효율적인 인덱싱과 검색을 위한 기반 a. 문서 : 원시 데이터를 처리 가능한 형태로 변환한 데이터의 기본 단위 b. 노드 : 문서를 더 작은 단위로 세분화하여 검색 및 분석할 수 있는 기본 단위​ 토큰 단위 분할 : 문서를 일정한 길이의 토큰 단위로 나누는 방식문장 단위 분할 : 문서를 각 문장을 기준으로 나누는 방식의미 단..

프로그래밍/LLM 2025.09.07
728x90
반응형