728x90
반응형

2025/01/25 10

[Day9] 한 권으로 LLM 온라인 스터디 1기 - 단일 GPU Gemma 파인튜닝 3

3.4.8 학습 파라미터 설정output_dir : 학습 중 만들어지는 체크포인트 저장 폴더 지정max_steps : 모델이 학습하는 총 스텝 수per_device_train_batch_size : 학습할 때 각 GPU나 CPU에서 한번에 처리할 데이터 샘플의 수per_device_eval_batch_size : 평가할 때 각 GPU나 CPU에서 한번에 처리할 데이터 샘플의 수weight_decay : 과적합을 막기 위해 모델 가중치를 조절하는 강도logging_dir : 로깅 도구가 사용할, 학습 중 발생하는 로그 정보를 저장하는 위치 지정logging_steps : 학습 상태, 손실값 등을 기록하는 주기 → 학습 과정 추적할 수 있음report_to : 학습 현황 관찰할 도구 (ex. wandb.ai..

프로그래밍/LLM 2025.01.25

[Day8] 한 권으로 LLM 온라인 스터디 1기 - 단일 GPU Gemma 파인튜닝 2

3.4.5 키워드 데이터 생성jaehy12/new3 데이터셋은 각 기사별 키워드 정보를 포함하지 않으므로 Gemma 모델을 활용해서 각 데이터마다 5개씩 키워드를 추출   3.4.6 데이터 전처리Gemma 모델이 이해할 수 있도록 기사 형식의 데이터를 대화 형식으로 데이터 전처리 진행   3.4.7 데이터셋 분리 및 콜레이터 설정학습용 데이터와테스트용 데이터 분리모델이 중점적으로 학습해야할 부분을 지정

프로그래밍/LLM 2025.01.25

[Day7] 한 권으로 LLM 온라인 스터디 1기 - 단일 GPU Gemma 파인튜닝 1

3.4 단일 GPU를 활용한 Gemma-2B-it 파인튜닝 3.4.1 런팟 환경설정https://www.runpod.io/ RunPod - The Cloud Built for AIDevelop, train, and scale AI models in one cloud. Spin up on-demand GPUs with GPU Cloud, scale ML inference with Serverless.www.runpod.io H100PCIe x 1Pytorch 2.1Container Disk 200GBVolume Disk 200GBgit clone https://github.com/wikibook/llm-finetuningcd llm-finetuning/chapter3/3.4pip install -r req..

프로그래밍/LLM 2025.01.25

[Day6] 한 권으로 LLM 온라인 스터디 1기 - GPU 병렬화 기법

3.3 GPU 병렬화 기법3.3.1 데이터 병렬 처리(Data Parallelism, DP)전체 데이터를 작은 덩어리 여러 개로 나눠 각각을 서로 다른 GPU에서 동시에 처리학습시간 크게 단축, 메모리 제약 없이 대규모 데이터셋을 효과적으로 다룰 수 있음모든 GPU의 VRAM을 균등하게 활용하지 못함 → 모델 병렬화 기법이 등장 3.3.2 모델 병렬화(Model Parallelism, MP)대규모 신경망 모델을 여러 GPU에서 나누어 처리하는 방식모델을 수직으로 분할해서 처리(수직 모델 병렬화)단일 GPU로는 처리하기 어려운 대규모 모델을 효율적으로 학습하고 실행특정 시점에 대부분의 GPU가 놀고 있을 수 있음기기 간 데이터 복사로 인한 부담이 전체적인 학습속도를 저하시킬 수 있음→ 파이프라인 병렬화 등..

프로그래밍/LLM 2025.01.25

[Day5] 한 권으로 LLM 온라인 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교

3.2 Gemma와 Llama3 모델 구조 분석 3.2.1 Gemma 모델 구조 분석매개변수(7B, 13B, 34B, 72B 등)의 수를 늘려서 성능을 높이는데 집중했던 재부분의 모델들과는 반대로 모델의 크기를 크게 줄여서 고성능 컴퓨팅 자원이 부족한 환경에서도 언어모델을 황용할 수 있게 하려는 혁신적인 시도a. input_layernorm, post_attention_layernorm 추가 : 그레디언트를 적절한 크기로 유지 → 안정적 학습, 더 좋은 성능b. RoPE(Rotary Position Embedding) 도입 : 각 토큰의 위치를 상대적인 각도로 표시c. 활성화 함수 : ReLU의 한계를 극복하기 위해 GELU와 GLU를 결합한 GeGLU라는 새로운 활성화 함수를 사용  3.2.2 Gemm..

프로그래밍/LLM 2025.01.25

[Day4] 한 권으로 LLM 온라인 스터디 1기 - 파인튜닝 개념

3.1 전체 파인튜닝 데이터 준비3.1.1 전체 파인튜닝의 원리와 종류파인튜닝이란?- 이미 학습되어 공개된 언어 모델(Pre-trained Language Model,)을 특정 작업에 맞게 추가로 학습하는 것- 성능을 높이고자 하는분야나 풀고자 하는 문제의 데이터로 추가 학습   → 모델이 해당 분야에서 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있게 됨파인튜닝을 하는 이유- 처음부터 모델을 개발하는 것 보다 훨씬 더 경제적이고 편리함- 특정분야의 데이터는 매우 적음 → 과적합, 자연스러운 언어생성 능력 부족파인튜닝의 종류- PEFT(Parameter-Efficient Fine-Tuning, 매개변수 효율적 파인튜닝)  a. 어댑터 튜닝(Adapter Tuning) : 기존의 거대한 언어 모델에 작은..

프로그래밍/LLM 2025.01.25

[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

2.6 멀티헤드 어텐션과 피드포워드 2.6.1 멀티헤드 어텐션 만들기어텐션 메커니즘 : 모델이 입력 데이터의 중요한 부분에 집중할 수 있게 하는 것멀티헤드 어텐션 : 여러개의 어텐션 메커니즘을 병렬로 사용해 다양한 관점에서 정보를 동시에 처리  2.6.2 피드포워드 만들기각 어텐션 블록 뒤에 피드포워드 네트워크를 배치각 시퀀스 위치마다 독립적으로 적용되어 모델의 표현력을 높임어텐션 메커니즘으로부터 얻은 표현을 더욱 풍부하게 만듬→ 모델이 더 복잡한 데이터 패턴을 학습할 수 있게 돕는 과정 2.7 Blocks 만들기복잡한 신경망 모델에서 블록은 모델의 설계와 구현에 중요한 구조적 단위모델 내 다양한 계층과 구성 요소를 하나로 묶어 모듈화, 개사용성, 확장성을 크게 향상시킴각  블록 내에서 주로 어텐션 메커..

프로그래밍/LLM 2025.01.25

미국 대통령 도널드 트럼프, 암호화폐 계획에 대한 코인베이스 브라이언 암스트롱의 언급

기사내용 :  최근 보도에 따르면 미국 대통령 도널드 트럼프가 암호화폐 산업에 대한 새로운 계획을 갖고 있으며, 이는 암호화폐 거래소 코인베이스의 CEO 브라이언 암스트롱에 의해 주목받고 있습니다. 암스트롱은 트럼프의 암호화폐 관련 정책이 기술 발전과 금융 혁신에 긍정적인 영향을 미칠 가능성이 있다고 언급했습니다. 그러나 정확한 정책의 내용과 실행 시기에 대한 정보는 아직 밝혀지지 않았습니다. 트럼프의 행정부는 과거에 암호화폐에 다소 회의적인 입장을 보여왔지만, 새로운 계획이 어떻게 구성될지에 대해 많은 관심이 모아지고 있습니다. 시장에 미치는 영향 :  과거 사례를 살펴보면, 정부의 암호화폐 정책 발표는 시장에 즉각적인 영향을 미칠 수 있습니다. 긍정적인 정책은 투자자들 사이에서 낙관적인 전망을 불러일..

코인 뉴스 2025.01.25

암호화의 상태: 트럼프의 두 번째 첫 주

기사내용 :  트럼프 전 미국 대통령이 2025년 재임했을 당시의 첫 주에 대한 평가를 다루고 있습니다. 싱가포르에서 암호화폐 규제 완화를 강하게 추진했으며, 글로벌 경제에 미치는 영향을 고려한 새로운 정책을 도입했습니다. 그의 정책은 주로 비트코인 및 기타 주요 암호화폐에 긍정적인 영향을 미칠 것으로 예상됩니다.   시장에 미치는 영향 :  역사적으로, 미국 대통령의 정책 변화는 금융 및 암호화폐 시장에 큰 영향을 미쳤습니다. 특히, 트럼프의 이전 임기에서는 규제 완화 및 경제 성장에 중점을 두어 시장의 기대 심리를 높이는 경향이 있었습니다. 따라서 트럼프의 두 번째 임기에서도 비슷한 패턴을 볼 수 있으며, 이러한 정책이 암호화폐 시장의 긍정적 변동성을 증가시킬 것으로 예상됩니다. url :https:..

코인 뉴스 2025.01.25

나스닥, 자산 관리자 블랙록의 비트코인 ETF 신청 '현물 상환' 포함

기사내용 :  블랙록은 최근 나스닥에 비트코인 ETF 상장을 위한 신청서를 제출하였습니다. 이 신청서는 비트코인의 직접 현물 상환이라는 중요한 기능을 포함하고 있습니다. 이는 블랙록이 비트코인 시장에 더 깊숙이 관여하려는 의도를 나타냅니다. 비트코인 현물 상환은 투자자들이 ETF를 통해 비트코인의 실제 소유권을 확보할 수 있음을 의미하며, 이는 잠재적으로 비트코인의 수요를 높일 수 있습니다. 시장에 미치는 영향 :  과거 사례를 살펴보면, 비트코인 ETF에 대한 기대가 높아짐에 따라 비트코인 가격은 상승하는 경향이 있었습니다. ETF 승인 소식은 보통 시장에 긍정적인 영향을 미치며, 투자자들의 관심이 증가하여 유동성이 높아질 수 있습니다. 그러나 ETF 신청이 승인되지 않으면 단기적인 가격 변동성이 커질..

코인 뉴스 2025.01.25
728x90
반응형