728x90
반응형

LORA 5

[Day15] 한 권으로 LLM 온라인 스터디 1기 - vLLM 서빙

5.1 페이지드 어텐션 원리페이지드 어텐션 시스템의 주요 구성 요소- Logical KV Cache Blocks : 모델이 처리하는 데이터의 논리적 구조- Block Table :  논리적 구조와 실제 물리적 메모리 위치를 연결하는 중개자 역할- Physical KV Cache Blocks : 실제 데이터가 저장되는 물리적 메모리 공간→ 이 세 요소가 함께 작동해 대규모 언어 모델의 메모리 사용을 최적화 하고, 효율적인 데이터 접근을 가능하게 함→ 컴퓨터의 가상 메모리 시스템과 유사하게 제한된 물리적 자원을 효과적으로 관리하고 활용할 수 있게 해줌   5.2 vLLM 사용 방법vLLM은 페이지드 어텐션 기술을 구현한 라이브러리로, 대규모 언어 모델을 효율적으로 메모리에 로드하고 빠른 텍스트 생성을 가능하..

프로그래밍/LLM 2025.01.26

[Day13] 한 권으로 LLM 온라인 스터디 1기 - 효율적인 파라미터 튜닝 (양자화 & QLoRA)

4.2 QLoRA 이론 및 실습4.2.1 양자화의 이해부동소수점의 개념 다양한 데이터 타입과 정밀도의 관계- FP32 : 실수를 표현하는 표준적인 방식 중 하나, 단정밀도라고 불리며 32비트(4바이트) 사용, 매우 넓은 범위의 숫자 표현 가능, 0 주변의 숫자들을 더 세밀하게 표현할 수 있음(높은 정밀도), 메모리 사용량이 큰 편이고 대규모 모델이나 데이터셋을 다룰 때 제한요소가 될 수 있음. - FP16 : 반정밀도라고도 불리는 숫자 표현 방식, 16비트 사용, FP32 보다 정밀도 낮고 표현할 수 있는 값의 범위가 좁다, 메모리 사용량이 적고 계산 효율성이 높음, 같은 메모리 공간에 더 많은 데이터를 저장할 수 있고 연산 속도도 빨라서대규모 머신러닝 모델 훈련이나 추론 과정에 자주 사용됨, 정밀도가 ..

프로그래밍/LLM 2025.01.26

[Day12] 한 권으로 LLM 온라인 스터디 1기 - 효율적인 파라미터 튜닝 (LoRA 2)

4.1.6 모델 학습지도 학습 방식의 파인 튜닝을 쉽게 수행할 수 있게해주는 도구인 SFTTrainer를 사용해서 실제 훈련 과정을 설정   4.1.7 학습한 모델 테스트하기generate를 이용한 테스트- generate 함수를 직접 사용- AutoModellForCausalLM 클래스를 통해 직접 불러와서 사용 → 자연어 생성에 특화, generate 함수 제공- 생성 과정의 다양한 매개변수를 직접 조정할 수 있어 세밀한 제어 가능pipeline를 이용한 테스트- 허깅페이스에서 제공하는 편리한 기능 → 모델 사용 과정을 간소화- 모델 로딩, 토크나이징, 텍스트 생성, 디코딩 등의 과정을 한 번에 처리- 내부적으로 필요한 전처리와 후처리과정을 자동으로 수행  4.1.8 모델 성능을 OpenAI로 평가하..

프로그래밍/LLM 2025.01.26

[Day11] 한 권으로 LLM 온라인 스터디 1기 - 효율적인 파라미터 튜닝 (LoRA 1)

4.1 LoRA 이론 및 실습 4.1.1 LoRA 개념사전 학습된 대규모 모델(Pre-Trained Model)은 이미 방대한 데이터로 학습됐지만, 새로운 데이터를 처리하거나 특정 작업에 맞추려면 추가적인 파인 튜닝이 필요함새로운 데이터를 반영하려고 전체 모델을 수정하는 것은 비효율적LoRA는 사전 학습된 모델의 구조를 그대로 유지하면서 필요한 만큼만 파라미터를 효율적으로 수정하는 방법  4.1.2 런팟 환경 설정H100PCIe x1Pytorch 2.1Container Disk 200GBVolume Disk 200GB  4.1.3 Gemma-2-9B-it 모델 준비https://huggingface.co/google/gemma-2-9b-it google/gemma-2-9b-it · Hugging Face..

프로그래밍/LLM 2025.01.26

[Day4] 한 권으로 LLM 온라인 스터디 1기 - 파인튜닝 개념

3.1 전체 파인튜닝 데이터 준비3.1.1 전체 파인튜닝의 원리와 종류파인튜닝이란?- 이미 학습되어 공개된 언어 모델(Pre-trained Language Model,)을 특정 작업에 맞게 추가로 학습하는 것- 성능을 높이고자 하는분야나 풀고자 하는 문제의 데이터로 추가 학습   → 모델이 해당 분야에서 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있게 됨파인튜닝을 하는 이유- 처음부터 모델을 개발하는 것 보다 훨씬 더 경제적이고 편리함- 특정분야의 데이터는 매우 적음 → 과적합, 자연스러운 언어생성 능력 부족파인튜닝의 종류- PEFT(Parameter-Efficient Fine-Tuning, 매개변수 효율적 파인튜닝)  a. 어댑터 튜닝(Adapter Tuning) : 기존의 거대한 언어 모델에 작은..

프로그래밍/LLM 2025.01.25
728x90
반응형