728x90
반응형
2.6 멀티헤드 어텐션과 피드포워드
2.6.1 멀티헤드 어텐션 만들기
- 어텐션 메커니즘 : 모델이 입력 데이터의 중요한 부분에 집중할 수 있게 하는 것
- 멀티헤드 어텐션 : 여러개의 어텐션 메커니즘을 병렬로 사용해 다양한 관점에서 정보를 동시에 처리
2.6.2 피드포워드 만들기
- 각 어텐션 블록 뒤에 피드포워드 네트워크를 배치
- 각 시퀀스 위치마다 독립적으로 적용되어 모델의 표현력을 높임
- 어텐션 메커니즘으로부터 얻은 표현을 더욱 풍부하게 만듬
→ 모델이 더 복잡한 데이터 패턴을 학습할 수 있게 돕는 과정
2.7 Blocks 만들기
- 복잡한 신경망 모델에서 블록은 모델의 설계와 구현에 중요한 구조적 단위
- 모델 내 다양한 계층과 구성 요소를 하나로 묶어 모듈화, 개사용성, 확장성을 크게 향상시킴
- 각 블록 내에서 주로 어텐션 메커니즘과 피드포워드 네트워크가 수행됨
→ 입력 데이터로부터 점진적으로 더 복잡하고 추상적인 특징을 추출함 - 모델의 깊이와 복잡성을 쉽게 조절할수 있으며, 필요에 따라 블록을 추가하거나 구성을 변경할 수 있음
→ 성능을 최적화 할 수 있음
2.8 토크나이저 만들기
2.8.1 vocab_size 변화에 따른 토큰화 비교
- 토크나이저의 성능과 효율성은 어휘크기(vocab_size)에 따라 크게 달라질 수 있음
- 어휘 크기는 토크나이저가 인식하고 처리할 수 있는 고유한 토큰의 수를 의미함
- 어휘크기가 작으면 : 메모리 사용량↓ 처리속도↑ 복잡한 단어나 구문을 제대로 포착 못할 수 있음
- 어휘크기가 크면 : 더 정교한 토큰화 가능, 계산비용이 증가
2.8.2 토크나이저 만들기
- 원시 텍스트 데이터를 모델이 이해할 수 있는 형태로 변환
- 텍스트의 의미를 잘 보존하면서 데이터를 효율적으로 처리할 수 있어야함
728x90
반응형
'프로그래밍 > LLM' 카테고리의 다른 글
[Day5] 한 권으로 LLM 온라인 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교 (0) | 2025.01.25 |
---|---|
[Day4] 한 권으로 LLM 온라인 스터디 1기 - 파인튜닝 개념 (1) | 2025.01.25 |
[Day2] 한 권으로 LLM 온라인 스터디 1기 - 언어 모델 구조 및 셀프 어텐션 메커니즘 이해 (0) | 2025.01.24 |
[Day1] 한 권으로 LLM 온라인 스터디 1기 - NLP 이해와 런팟 설치 (0) | 2025.01.24 |
[Day0] 한 권으로 LLM 온라인 스터디 1기 - 준비 (0) | 2025.01.24 |