[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

프로그래밍/LLM

[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

31weeks 2025. 1. 25. 16:05

728x90

2.6 멀티헤드 어텐션과 피드포워드

2.6.1 멀티헤드 어텐션 만들기

어텐션 메커니즘 : 모델이 입력 데이터의 중요한 부분에 집중할 수 있게 하는 것
멀티헤드 어텐션 : 여러개의 어텐션 메커니즘을 병렬로 사용해 다양한 관점에서 정보를 동시에 처리

2.6.2 피드포워드 만들기

각 어텐션 블록 뒤에 피드포워드 네트워크를 배치
각 시퀀스 위치마다 독립적으로 적용되어 모델의 표현력을 높임
어텐션 메커니즘으로부터 얻은 표현을 더욱 풍부하게 만듬
→ 모델이 더 복잡한 데이터 패턴을 학습할 수 있게 돕는 과정

2.7 Blocks 만들기

복잡한 신경망 모델에서 블록은 모델의 설계와 구현에 중요한 구조적 단위
모델 내 다양한 계층과 구성 요소를 하나로 묶어 모듈화, 개사용성, 확장성을 크게 향상시킴
각 블록 내에서 주로 어텐션 메커니즘과 피드포워드 네트워크가 수행됨
→ 입력 데이터로부터 점진적으로 더 복잡하고 추상적인 특징을 추출함
모델의 깊이와 복잡성을 쉽게 조절할수 있으며, 필요에 따라 블록을 추가하거나 구성을 변경할 수 있음
→ 성능을 최적화 할 수 있음

GPT 구조

2.8 토크나이저 만들기

2.8.1 vocab_size 변화에 따른 토큰화 비교

토크나이저의 성능과 효율성은 어휘크기(vocab_size)에 따라 크게 달라질 수 있음
어휘 크기는 토크나이저가 인식하고 처리할 수 있는 고유한 토큰의 수를 의미함
- 어휘크기가 작으면 : 메모리 사용량↓ 처리속도↑ 복잡한 단어나 구문을 제대로 포착 못할 수 있음
- 어휘크기가 크면 : 더 정교한 토큰화 가능, 계산비용이 증가

2.8.2 토크나이저 만들기

원시 텍스트 데이터를 모델이 이해할 수 있는 형태로 변환
텍스트의 의미를 잘 보존하면서 데이터를 효율적으로 처리할 수 있어야함

728x90

저작자표시 비영리 변경금지 (새창열림)

'프로그래밍 > LLM' 카테고리의 다른 글

[Day5] 한 권으로 LLM 온라인 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교 (0)	2025.01.25
[Day4] 한 권으로 LLM 온라인 스터디 1기 - 파인튜닝 개념 (1)	2025.01.25
[Day2] 한 권으로 LLM 온라인 스터디 1기 - 언어 모델 구조 및 셀프 어텐션 메커니즘 이해 (0)	2025.01.24
[Day1] 한 권으로 LLM 온라인 스터디 1기 - NLP 이해와 런팟 설치 (0)	2025.01.24
[Day0] 한 권으로 LLM 온라인 스터디 1기 - 준비 (1)	2025.01.24

현재글[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

댓글

31weeks blog

250x250

암호화폐, 운세, 가스, 학습 방법, MBTI, 작괘법, 이지함, 괘상, 가이드, 비트코인, 트럼프, 토정비결, 파이썬, 풀이, 문제풀이, 기술사, 기출문제, 사주팔자, 원본해설, 괘상수,

Today :
Yesterday :

티스토리툴바