728x90
반응형

gemma 3

[Day8] 한 권으로 LLM 온라인 스터디 1기 - 단일 GPU Gemma 파인튜닝 2

3.4.5 키워드 데이터 생성jaehy12/new3 데이터셋은 각 기사별 키워드 정보를 포함하지 않으므로 Gemma 모델을 활용해서 각 데이터마다 5개씩 키워드를 추출   3.4.6 데이터 전처리Gemma 모델이 이해할 수 있도록 기사 형식의 데이터를 대화 형식으로 데이터 전처리 진행   3.4.7 데이터셋 분리 및 콜레이터 설정학습용 데이터와테스트용 데이터 분리모델이 중점적으로 학습해야할 부분을 지정

프로그래밍/LLM 2025.01.25

[Day7] 한 권으로 LLM 온라인 스터디 1기 - 단일 GPU Gemma 파인튜닝 1

3.4 단일 GPU를 활용한 Gemma-2B-it 파인튜닝 3.4.1 런팟 환경설정https://www.runpod.io/ RunPod - The Cloud Built for AIDevelop, train, and scale AI models in one cloud. Spin up on-demand GPUs with GPU Cloud, scale ML inference with Serverless.www.runpod.io H100PCIe x 1Pytorch 2.1Container Disk 200GBVolume Disk 200GBgit clone https://github.com/wikibook/llm-finetuningcd llm-finetuning/chapter3/3.4pip install -r req..

프로그래밍/LLM 2025.01.25

[Day5] 한 권으로 LLM 온라인 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교

3.2 Gemma와 Llama3 모델 구조 분석 3.2.1 Gemma 모델 구조 분석매개변수(7B, 13B, 34B, 72B 등)의 수를 늘려서 성능을 높이는데 집중했던 재부분의 모델들과는 반대로 모델의 크기를 크게 줄여서 고성능 컴퓨팅 자원이 부족한 환경에서도 언어모델을 황용할 수 있게 하려는 혁신적인 시도a. input_layernorm, post_attention_layernorm 추가 : 그레디언트를 적절한 크기로 유지 → 안정적 학습, 더 좋은 성능b. RoPE(Rotary Position Embedding) 도입 : 각 토큰의 위치를 상대적인 각도로 표시c. 활성화 함수 : ReLU의 한계를 극복하기 위해 GELU와 GLU를 결합한 GeGLU라는 새로운 활성화 함수를 사용  3.2.2 Gemm..

프로그래밍/LLM 2025.01.25
728x90
반응형