프로그래밍/LLM

[Day5] 한 권으로 LLM 온라인 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교

31weeks 2025. 1. 25. 18:06
728x90
반응형

3.2 Gemma와 Llama3 모델 구조 분석

 

3.2.1 Gemma 모델 구조 분석

  • 매개변수(7B, 13B, 34B, 72B 등)의 수를 늘려서 성능을 높이는데 집중했던 재부분의 모델들과는 반대로 모델의 크기를 크게 줄여서 고성능 컴퓨팅 자원이 부족한 환경에서도 언어모델을 황용할 수 있게 하려는 혁신적인 시도

    a. input_layernorm, post_attention_layernorm 추가 : 그레디언트를 적절한 크기로 유지 → 안정적 학습, 더 좋은 성능
    b. RoPE(Rotary Position Embedding) 도입 : 각 토큰의 위치를 상대적인 각도로 표시
    c. 활성화 함수 : ReLU의 한계를 극복하기 위해 GELU와 GLU를 결합한 GeGLU라는 새로운 활성화 함수를 사용


GPT 모델 구조(a)와 Gemma 모델 구조(b)

 

 

3.2.2 Gemma와 Gemma2 모델 비교

특징 Gemma Gemma2
어텐션유형  멀티헤드 어텐션 로컬 슬라이딩 윈도 및 글로벌 어텐션, 그룹 쿼리 어텐션
훈련 방식 다음 토큰 예측 지식 증류(2B, 9B), 다음 토큰 예측(27B)
정규화 RMSNorm RMSNorm
로짓 제한 없음 어텐션 및 최종 레이어의 로짓 제한 적용   
모델 크기 2B, 7B 모델 2B, 9B, 27B 모델

 

 

 

3.2.3 Llama3 모델 구조 분석

 

 

GPT와 Llama3 구조 비교

 

 

 

3.2.4 GPT, Gemma, Llama 비교

특징 GPT Gemma Gemma2 Llama3
아키텍처 Decoder Decoder Decoder Decoder
위치 인코딩 Sinusoidal
PE
RoPE RoPE RoPE
정규화 Layer Norm RMS Norm RMS Norm RMS Norm
어텐션 메커니즘 Multi-Head
Attention
Multi-Head
Attention
Local Sliding
Window and
Global Attention
Grouped-Query
Attention
Grouped Multi-Query
Attention
활성화 ReLU GEGLU GEGLU SwiGLU
데이터 크기 4.5M + 36M ~ 6T ~ 13T 15T

 

728x90
반응형