728x90
반응형

인덱싱 2

[Day 6] LLM & RAG 실전 챌린지 - 텍스트 문서를 이용한 RAG 실습

4.1 개발 환경 구축하기​4.2 실습용 데이터 준비​4.3 PDF 파일 다루기4.3.2 텍스트 분할텍스트 분할 = 청킹 = 긴 문장을 짧게 나누어 노드에 담는 작업하나의 모큐먼트 안에 여러 의미가 뒤섞여 있을 수 있으므로, 의미의 일관성을 유지하며 인덱싱을 하려면 텍스트를 별도로 분할하는 절차가 필요함잘 분할된 데이터는 RAG의 답변 성능에 큰 영향을 미치며, 답변 정확도 뿐 아니라 답변 속도에도 영향을 준다.​4.3.3 인덱싱데이터를 구조화하여 빠르게 검색할 수 있도록 하는 과정라마인덱스에서는 문서를 노드로 분할한 뒤, 각 노드의 의미를 벡터 임베딩으로 변환해서 저장인덱스가 잘 구축되어 있으면 데이터를 효율적으로 건색하고 관리할 수 있음​​4.4 텍스트 파일 다루기​4.5 CSV 파일 다루기​4.6 ..

프로그래밍/LLM 2025.09.07

[Day 3] LLM & RAG 실전 챌린지 - 인덱싱, 저장하기, 쿼리

2.4 인덱싱 1) 인덱싱이란?문서 객체로 구성된 특정 형태의 데이터 구조​2) 벡터 저장소 인덱스라마인덱스에서 가장 널리 사용되는 인덱스 유형문서를 노드 단위로 분할한 뒤, 각 노드의 텍스트를 벡터화 하여 LLM이 쿼리를 보다 효율적으로 처리할 수 있도록 준비​* 벡터 임베딩 : 텍스트의 의미를 수치화하여 벡터로 표현하는 기술, 의미적으로 유사한 단어나 문장은 임베딩 공간에서 물리적으로 가까운 위치에 맵핑된다.장점 : 효율적인 검색, 의미론적 검색, 다양한 쿼리 전략 지원​3) Top-K 검색벡터 저장소 인덱스를 활용하여 쿼리를 수행하고 의미적으로 가장 유사한 상위 K개의 임베딩 결과를 반환하는 검색 방식​​2.5 저장하기문서를 인덱싱 하면 쿼리를 실행할 준비가 완료되지만 모든 텍스트에 대해 임베딩을 ..

프로그래밍/LLM 2025.09.07
728x90
반응형