728x90
반응형

프로그래밍 97

[Day 3] LLM & RAG 실전 챌린지 - 인덱싱, 저장하기, 쿼리

2.4 인덱싱 1) 인덱싱이란?문서 객체로 구성된 특정 형태의 데이터 구조​2) 벡터 저장소 인덱스라마인덱스에서 가장 널리 사용되는 인덱스 유형문서를 노드 단위로 분할한 뒤, 각 노드의 텍스트를 벡터화 하여 LLM이 쿼리를 보다 효율적으로 처리할 수 있도록 준비​* 벡터 임베딩 : 텍스트의 의미를 수치화하여 벡터로 표현하는 기술, 의미적으로 유사한 단어나 문장은 임베딩 공간에서 물리적으로 가까운 위치에 맵핑된다.장점 : 효율적인 검색, 의미론적 검색, 다양한 쿼리 전략 지원​3) Top-K 검색벡터 저장소 인덱스를 활용하여 쿼리를 수행하고 의미적으로 가장 유사한 상위 K개의 임베딩 결과를 반환하는 검색 방식​​2.5 저장하기문서를 인덱싱 하면 쿼리를 실행할 준비가 완료되지만 모든 텍스트에 대해 임베딩을 ..

프로그래밍/LLM 2025.09.07

[Day 2] LLM & RAG 실전 챌린지 - 데이터 로딩, 텍스트 분할

* 라마인덱스 주요 파이프라인데이터 로딩 -> 텍스트 분할 -> 인덱싱 -> 저장 -> 쿼리 -> 검색​​2.1 개발 환경 구축하기​2.2 데이터 로딩데이터 커넥터 : 다양한 데이터 소스에서 정보를 가져오는 역할데이터 리더 : 가져온 데이터를 어떻게 처리할 것인지, 처리 방식에 중점을 두는 도구​2.3 텍스트 분할문서와 노드 : 라마인덱스에서 데이터를 구조화하고 관리하는 핵심 요소, 효율적인 인덱싱과 검색을 위한 기반 a. 문서 : 원시 데이터를 처리 가능한 형태로 변환한 데이터의 기본 단위 b. 노드 : 문서를 더 작은 단위로 세분화하여 검색 및 분석할 수 있는 기본 단위​ 토큰 단위 분할 : 문서를 일정한 길이의 토큰 단위로 나누는 방식문장 단위 분할 : 문서를 각 문장을 기준으로 나누는 방식의미 단..

프로그래밍/LLM 2025.09.07

[Day 0] LLM & RAG 실전 챌린지 - 준비

1. 책준비https://wikibook.co.kr/llm-rag/ LLM과 RAG로 구현하는 AI 애플리케이션: 에이전트, 펑션콜링, Text-to-SQL, MCP까지 라마인덱스 실무 가검색 증강 생성(RAG), 펑션 콜링, 에이전트, 벡터 스토어, 그리고 최신 프레임워크 MCP까지! 이 책은 빠르게 진화하는 AI 기술 트렌드를 단순히 따라가는 데 그치지 않고 실제 구현과 통합에 필요한wikibook.co.kr 2. 네이버 위키북스 스터디 카페https://cafe.naver.com/wikibookstudy 위키, 북스터디 :: 위키북스 스터디 : 네이버 카페[IT/개발스터디] 파이썬/C언어/자바/웹,앱개발/스터디/도커/머신러닝/독학cafe.naver.com 3. 위키북스 깃허브 - llama-..

프로그래밍/LLM 2025.09.07

[Day15] 한 권으로 LLM 온라인 스터디 1기 - vLLM 서빙

5.1 페이지드 어텐션 원리페이지드 어텐션 시스템의 주요 구성 요소- Logical KV Cache Blocks : 모델이 처리하는 데이터의 논리적 구조- Block Table :  논리적 구조와 실제 물리적 메모리 위치를 연결하는 중개자 역할- Physical KV Cache Blocks : 실제 데이터가 저장되는 물리적 메모리 공간→ 이 세 요소가 함께 작동해 대규모 언어 모델의 메모리 사용을 최적화 하고, 효율적인 데이터 접근을 가능하게 함→ 컴퓨터의 가상 메모리 시스템과 유사하게 제한된 물리적 자원을 효과적으로 관리하고 활용할 수 있게 해줌   5.2 vLLM 사용 방법vLLM은 페이지드 어텐션 기술을 구현한 라이브러리로, 대규모 언어 모델을 효율적으로 메모리에 로드하고 빠른 텍스트 생성을 가능하..

프로그래밍/LLM 2025.01.26

[Day14] 한 권으로 LLM 온라인 스터디 1기 - QLoRA 튜닝 실습

4.2.6 파라미터 설정'3.5.2 Llama 3.1 학습 파라미터 설정' 참고https://31weeks.tistory.com/483 [Day10] 한 권으로 LLM 온라인 스터디 1기 - 다중 GPU Llama3 파인튜닝3.5 다중 GPU를 활용한 Llama3.1-8B-instruct 파인 튜닝 3.5.1 런팟 환경 설정H100XM x 41Pytorch 2.2.0Container Disk 400GBVolume Disk 400GBgit clone https://github.com/wikibook/llm-finetuningcd llm-finetuning/chapter3/3.5pip install -r requirem31weeks.com   4.2.7 모델 학습model : Ko-Llama3 모델 지정ar..

프로그래밍/LLM 2025.01.26

[Day13] 한 권으로 LLM 온라인 스터디 1기 - 효율적인 파라미터 튜닝 (양자화 & QLoRA)

4.2 QLoRA 이론 및 실습4.2.1 양자화의 이해부동소수점의 개념 다양한 데이터 타입과 정밀도의 관계- FP32 : 실수를 표현하는 표준적인 방식 중 하나, 단정밀도라고 불리며 32비트(4바이트) 사용, 매우 넓은 범위의 숫자 표현 가능, 0 주변의 숫자들을 더 세밀하게 표현할 수 있음(높은 정밀도), 메모리 사용량이 큰 편이고 대규모 모델이나 데이터셋을 다룰 때 제한요소가 될 수 있음. - FP16 : 반정밀도라고도 불리는 숫자 표현 방식, 16비트 사용, FP32 보다 정밀도 낮고 표현할 수 있는 값의 범위가 좁다, 메모리 사용량이 적고 계산 효율성이 높음, 같은 메모리 공간에 더 많은 데이터를 저장할 수 있고 연산 속도도 빨라서대규모 머신러닝 모델 훈련이나 추론 과정에 자주 사용됨, 정밀도가 ..

프로그래밍/LLM 2025.01.26

[Day12] 한 권으로 LLM 온라인 스터디 1기 - 효율적인 파라미터 튜닝 (LoRA 2)

4.1.6 모델 학습지도 학습 방식의 파인 튜닝을 쉽게 수행할 수 있게해주는 도구인 SFTTrainer를 사용해서 실제 훈련 과정을 설정   4.1.7 학습한 모델 테스트하기generate를 이용한 테스트- generate 함수를 직접 사용- AutoModellForCausalLM 클래스를 통해 직접 불러와서 사용 → 자연어 생성에 특화, generate 함수 제공- 생성 과정의 다양한 매개변수를 직접 조정할 수 있어 세밀한 제어 가능pipeline를 이용한 테스트- 허깅페이스에서 제공하는 편리한 기능 → 모델 사용 과정을 간소화- 모델 로딩, 토크나이징, 텍스트 생성, 디코딩 등의 과정을 한 번에 처리- 내부적으로 필요한 전처리와 후처리과정을 자동으로 수행  4.1.8 모델 성능을 OpenAI로 평가하..

프로그래밍/LLM 2025.01.26

[Day11] 한 권으로 LLM 온라인 스터디 1기 - 효율적인 파라미터 튜닝 (LoRA 1)

4.1 LoRA 이론 및 실습 4.1.1 LoRA 개념사전 학습된 대규모 모델(Pre-Trained Model)은 이미 방대한 데이터로 학습됐지만, 새로운 데이터를 처리하거나 특정 작업에 맞추려면 추가적인 파인 튜닝이 필요함새로운 데이터를 반영하려고 전체 모델을 수정하는 것은 비효율적LoRA는 사전 학습된 모델의 구조를 그대로 유지하면서 필요한 만큼만 파라미터를 효율적으로 수정하는 방법  4.1.2 런팟 환경 설정H100PCIe x1Pytorch 2.1Container Disk 200GBVolume Disk 200GB  4.1.3 Gemma-2-9B-it 모델 준비https://huggingface.co/google/gemma-2-9b-it google/gemma-2-9b-it · Hugging Face..

프로그래밍/LLM 2025.01.26
728x90
반응형