프로그래밍/LLM

[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

31weeks 2025. 1. 25. 16:05
728x90
반응형

2.6 멀티헤드 어텐션과 피드포워드

 

2.6.1 멀티헤드 어텐션 만들기

  • 어텐션 메커니즘 : 모델이 입력 데이터의 중요한 부분에 집중할 수 있게 하는 것
  • 멀티헤드 어텐션 : 여러개의 어텐션 메커니즘을 병렬로 사용해 다양한 관점에서 정보를 동시에 처리 

 

2.6.2 피드포워드 만들기

  • 각 어텐션 블록 뒤에 피드포워드 네트워크를 배치
  • 각 시퀀스 위치마다 독립적으로 적용되어 모델의 표현력을 높임
  • 어텐션 메커니즘으로부터 얻은 표현을 더욱 풍부하게 만듬
    → 모델이 더 복잡한 데이터 패턴을 학습할 수 있게 돕는 과정

 

2.7 Blocks 만들기

  • 복잡한 신경망 모델에서 블록은 모델의 설계와 구현에 중요한 구조적 단위
  • 모델 내 다양한 계층과 구성 요소를 하나로 묶어 모듈화, 개사용성, 확장성을 크게 향상시킴
  • 각  블록 내에서 주로 어텐션 메커니즘과 피드포워드 네트워크가 수행됨
    → 입력 데이터로부터 점진적으로 더 복잡하고 추상적인 특징을 추출함
  • 모델의 깊이와 복잡성을 쉽게 조절할수 있으며, 필요에 따라 블록을 추가하거나 구성을 변경할 수 있음
    → 성능을 최적화 할 수 있음

GPT 구조

 

 

 

 

 

 

2.8 토크나이저 만들기

2.8.1 vocab_size 변화에 따른 토큰화 비교

  • 토크나이저의 성능과 효율성은 어휘크기(vocab_size)에 따라 크게 달라질 수 있음
  • 어휘 크기는 토크나이저가 인식하고 처리할 수 있는 고유한 토큰의 수를 의미함
    - 어휘크기가 작으면 : 메모리 사용량↓ 처리속도↑ 복잡한 단어나 구문을 제대로 포착 못할 수 있음
    - 어휘크기가 크면 : 더 정교한 토큰화 가능, 계산비용이 증가

 

2.8.2 토크나이저 만들기

  • 원시 텍스트 데이터를 모델이 이해할 수 있는 형태로 변환
  • 텍스트의 의미를 잘 보존하면서 데이터를 효율적으로 처리할 수 있어야함
728x90
반응형