728x90
반응형

어텐션 2

[Day15] 한 권으로 LLM 온라인 스터디 1기 - vLLM 서빙

5.1 페이지드 어텐션 원리페이지드 어텐션 시스템의 주요 구성 요소- Logical KV Cache Blocks : 모델이 처리하는 데이터의 논리적 구조- Block Table :  논리적 구조와 실제 물리적 메모리 위치를 연결하는 중개자 역할- Physical KV Cache Blocks : 실제 데이터가 저장되는 물리적 메모리 공간→ 이 세 요소가 함께 작동해 대규모 언어 모델의 메모리 사용을 최적화 하고, 효율적인 데이터 접근을 가능하게 함→ 컴퓨터의 가상 메모리 시스템과 유사하게 제한된 물리적 자원을 효과적으로 관리하고 활용할 수 있게 해줌   5.2 vLLM 사용 방법vLLM은 페이지드 어텐션 기술을 구현한 라이브러리로, 대규모 언어 모델을 효율적으로 메모리에 로드하고 빠른 텍스트 생성을 가능하..

프로그래밍/LLM 2025.01.26

[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

2.6 멀티헤드 어텐션과 피드포워드 2.6.1 멀티헤드 어텐션 만들기어텐션 메커니즘 : 모델이 입력 데이터의 중요한 부분에 집중할 수 있게 하는 것멀티헤드 어텐션 : 여러개의 어텐션 메커니즘을 병렬로 사용해 다양한 관점에서 정보를 동시에 처리  2.6.2 피드포워드 만들기각 어텐션 블록 뒤에 피드포워드 네트워크를 배치각 시퀀스 위치마다 독립적으로 적용되어 모델의 표현력을 높임어텐션 메커니즘으로부터 얻은 표현을 더욱 풍부하게 만듬→ 모델이 더 복잡한 데이터 패턴을 학습할 수 있게 돕는 과정 2.7 Blocks 만들기복잡한 신경망 모델에서 블록은 모델의 설계와 구현에 중요한 구조적 단위모델 내 다양한 계층과 구성 요소를 하나로 묶어 모듈화, 개사용성, 확장성을 크게 향상시킴각  블록 내에서 주로 어텐션 메커..

프로그래밍/LLM 2025.01.25
728x90
반응형