728x90
반응형

프로그래밍/LLM 16

[Day5] 한 권으로 LLM 온라인 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교

3.2 Gemma와 Llama3 모델 구조 분석 3.2.1 Gemma 모델 구조 분석매개변수(7B, 13B, 34B, 72B 등)의 수를 늘려서 성능을 높이는데 집중했던 재부분의 모델들과는 반대로 모델의 크기를 크게 줄여서 고성능 컴퓨팅 자원이 부족한 환경에서도 언어모델을 황용할 수 있게 하려는 혁신적인 시도a. input_layernorm, post_attention_layernorm 추가 : 그레디언트를 적절한 크기로 유지 → 안정적 학습, 더 좋은 성능b. RoPE(Rotary Position Embedding) 도입 : 각 토큰의 위치를 상대적인 각도로 표시c. 활성화 함수 : ReLU의 한계를 극복하기 위해 GELU와 GLU를 결합한 GeGLU라는 새로운 활성화 함수를 사용  3.2.2 Gemm..

프로그래밍/LLM 2025.01.25

[Day4] 한 권으로 LLM 온라인 스터디 1기 - 파인튜닝 개념

3.1 전체 파인튜닝 데이터 준비3.1.1 전체 파인튜닝의 원리와 종류파인튜닝이란?- 이미 학습되어 공개된 언어 모델(Pre-trained Language Model,)을 특정 작업에 맞게 추가로 학습하는 것- 성능을 높이고자 하는분야나 풀고자 하는 문제의 데이터로 추가 학습   → 모델이 해당 분야에서 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있게 됨파인튜닝을 하는 이유- 처음부터 모델을 개발하는 것 보다 훨씬 더 경제적이고 편리함- 특정분야의 데이터는 매우 적음 → 과적합, 자연스러운 언어생성 능력 부족파인튜닝의 종류- PEFT(Parameter-Efficient Fine-Tuning, 매개변수 효율적 파인튜닝)  a. 어댑터 튜닝(Adapter Tuning) : 기존의 거대한 언어 모델에 작은..

프로그래밍/LLM 2025.01.25

[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

2.6 멀티헤드 어텐션과 피드포워드 2.6.1 멀티헤드 어텐션 만들기어텐션 메커니즘 : 모델이 입력 데이터의 중요한 부분에 집중할 수 있게 하는 것멀티헤드 어텐션 : 여러개의 어텐션 메커니즘을 병렬로 사용해 다양한 관점에서 정보를 동시에 처리  2.6.2 피드포워드 만들기각 어텐션 블록 뒤에 피드포워드 네트워크를 배치각 시퀀스 위치마다 독립적으로 적용되어 모델의 표현력을 높임어텐션 메커니즘으로부터 얻은 표현을 더욱 풍부하게 만듬→ 모델이 더 복잡한 데이터 패턴을 학습할 수 있게 돕는 과정 2.7 Blocks 만들기복잡한 신경망 모델에서 블록은 모델의 설계와 구현에 중요한 구조적 단위모델 내 다양한 계층과 구성 요소를 하나로 묶어 모듈화, 개사용성, 확장성을 크게 향상시킴각  블록 내에서 주로 어텐션 메커..

프로그래밍/LLM 2025.01.25

[Day2] 한 권으로 LLM 온라인 스터디 1기 - 언어 모델 구조 및 셀프 어텐션 메커니즘 이해

2.3 언어 모델 만들기2.3.1 라이브러리 설명torch : 텐서 연산과 자동 미분기능 등을 제공해 딥러닝 모델 구현에 필수적인 기능 제공torch.nn : 신경망 구축에 필요한 다양한 레이어와 매개변수 관리 기능 제공이를 통해 모델 아키텍처를 정의하고 매개변수를 초기화하며, 순전파(forward pass)를 구현할 수 있다 2.3.2 __init__ 함수__init__- 클래스 인스턴스가생성될 때 자동으로 호출되는 메서드- 신경망 모델에서는 모델 구조와 필요한 초기설정을 정의함super().__init__()- 부모 클래스의 __init__ 메서드를 호출 → nn.Module의 생성자 호출super()- 여러 클래스를 동시에 상속받을 때 생길 수 있는 복잡한 상황을 관리하기 위함num_embeddin..

프로그래밍/LLM 2025.01.24

[Day1] 한 권으로 LLM 온라인 스터디 1기 - NLP 이해와 런팟 설치

1. NLP(Natural Language Processing)자연어 처리단순한 규칙으로 시작 → 복잡한 언어 모델로 발전 2. 이정표가 되는 논문 세편앨런 튜링https://courses.cs.umbc.edu/471/papers/turing.pdf - 기계는 생각할 수 있는가?- 사고의 개념에 대하서 철학적 논의보다 실용적인 접근을 선호했기 때문프랭크 로젠블랫https://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf - 인공 신경망 모델은 퍼셉트론 개념을 실제 하드웨어로 구현한 최초의 기계- 현대 인공 신경망과 딥러닝의 기초가 되어 오늘날 사용하는 많은 인공지능의 기반이 됨- 연결주의 접근법, 통계적 접근법- 선형적 분리(시간적 패턴 인식 및 비선형적..

프로그래밍/LLM 2025.01.24

[Day0] 한 권으로 LLM 온라인 스터디 1기 - 준비

1. 책 준비https://wikibook.co.kr/llm-finetuning/ 한 권으로 끝내는 실전 LLM 파인튜닝: GPT 작동 원리부터 Gemma 2 / Llama 3 파인튜닝, vLLM 서빙까지실무 현장에서 꼭 필요한 파인튜닝, PEFT, vLLM 서빙 기술을 직접 실습하면서 배워 보자! AI 기술의 최전선에서 배우는 LLM 파인튜닝의 모든 것! 이론적 토대부터 실전 활용까지 단계별로 마스터할wikibook.co.kr    2. 네이버 위키북스 스터디 카페https://cafe.naver.com/wikibookstudy 위키, 북스터디 :: 위키북스 스터디 : 네이버 카페[IT/개발스터디] 파이썬/C언어/자바/웹,앱개발/스터디/도커/머신러닝/독학cafe.naver.com    3. 위키붓그 깃..

프로그래밍/LLM 2025.01.24
728x90
반응형