본문 바로가기

분류 전체보기34

LLM.int8()과 bitsandbytes를 활용하여 int8로 모델을 양자화하는 방법 이전 포스트에서 LLM을 효율적으로 훈련하는 방법 중 하나로 '양자화'를 소개하였습니다. https://yooonlp.tistory.com/21 LLM 효율적으로 훈련하기 - 양자화(Quantization)와 분산 훈련(Distributed Training) ※ 본 포스트는 Coursera 강의인 "Generative AI with Large Language Models"의 Week 1의 내용의 일부를 정리하고 필요한 내용을 추가하여 작성한 글입니다. GPU를 사용하여 모델 훈련을 진행하다 보면 “CUDA out o yooonlp.tistory.com 4byte를 차지하는 FP32 데이터 타입에서 2byte를 차지하는 BF16/FP16 데이터 타입을 사용한다면 모델 사이즈를 절반으로 줄일 수 있고, in.. 2023. 8. 13.

LLM 효율적으로 훈련하기 - 양자화(Quantization)와 분산 훈련(Distributed Training) ※ 본 포스트는 Coursera 강의인 "Generative AI with Large Language Models"의 Week 1의 내용의 일부를 정리하고 필요한 내용을 추가하여 작성한 글입니다. GPU를 사용하여 모델 훈련을 진행하다 보면 “CUDA out of memory”라는 메세지를 보셨을 것입니다. 언어 모델의 크기가 커질수록, 메모리 부족 문제를 많이 마주하게 됩니다. 아래는 현재 이 글을 작성하는 2023년 7월 기준으로 현재 올라온 모델의 사이즈를 나타낸 표인데, 21년도 이후에 등장한 언어 모델들은 10억 (1B) 파라미터는 기본이고, 1,000억 (100B) 이 훌쩍 넘는 초대형 언어 모델들이 등장합니다. 아무리 커도 3억 정도의 파라미터를 가졌던 BERT 모델 (340M) 과 비교하면.. 2023. 8. 1.

LoRA 이해하기(Low-Rank Adaptation of Large Language Models) 본 포스트는 2021년 Microsoft에서 발표한 "LoRA: Low-Rank Adaptation of Large Language Models" 논문을 이해하기 위해 작성하였습니다. 2021년에 발표한 시점에서 자연어처리 응용분야의 큰 패러다임은 Bert, Roberta와 같은 사전 훈련된 언어 모델을 Fine-tuning하는 것이었습니다. 파인튜닝은 사전 훈련 모델의 모든 weight을 업데이트하는 방법론입니다. 하지만 사전 훈련 모델, LLM의 크기가 점점 커지면서, 이 거대한 모델 전체를 매번 파인튜닝하고 배포해야하는 문제에 봉착하게 됩니다. 일부 weight만을 업데이트한다면 사전 훈련 모델 외에 특정 weight만 저장하고 불러오면 되기 때문에 배포 시 운영 효율성이 향상되지만, 이러한 시도를.. 2023. 7. 16.

Generation Configuration - 생성 인퍼런스에 사용되는 config 이해하기 ※ 본 포스트는 Coursera 강의인 "Generative AI with Large Language Models"의 Week 1의 내용의 일부를 정리하고 필요한 내용을 추가하여 작성한 글입니다. 이전 포스트에서는 사전 훈련 모델의 구조를 소개하며, LLM을 Encoder, Decoder, Encoder-Decoder 구조로 분류하였습니다. 이번 포스트에서는 훈련된 모델을 가지고 생성 Inference를 진행할 때, Configuration을 통해 생성되는 토큰을 제어하는 방법에 대하여 이야기합니다. 다음은 Flan-t5 모델에 "dialogue"를 입력으로 넣어 생성을 하는 코드입니다. 입력을 토크나이징 하고, 모델에 입력으로 넣어 다음 토큰을 예측하도록 하여, 결과를 다시 토크나이저로 디코딩하여 출력.. 2023. 7. 16.

Pre-training LLM 분류하기 (Encoder, Decoder, Encoder-Decoder) ※ 본 포스트는 Coursera 강의인 "Generative AI with Large Language Models"의 Week 1의 내용의 일부를 정리하고 필요한 내용을 추가하여 작성한 글입니다. 순환신경망(RNN)이 처음 등장하였을 때는 시간에 따른 데이터의 패턴을 학습하는 능력으로 인해 매우 유용하게 사용되었습니다. 하지만 RNN이 생성을 잘하기 위해서는 많은 연산량과 메모리를 필요로 한다는 단점이 있었으며, 단순히 이전 몇 개의 단어를 통해 다음 단어를 예측하는 방식은 생성 과제를 제대로 수행하기는 힘들었습니다. 모델은 몇 개의 단어만이 아니라, 전체 문장, 문단, 더 나아가 문서까지도 이해해야하며, 언어는 동음이의어, 구조적 중의성 등의 복잡한 요소들이 많았기 때문에 RNN으로는 한계가 존재하였습.. 2023. 7. 16.

ChatGPT로 학생 글쓰기 평가하기 *본 포스트는 다음 원문 사이트를 참고하여 작성되었습니다. https://ditchthattextbook.com/chatgpt-ai-assess-student-writing/ 학생들의 글쓰기에 점수를 매기고, 알맞는 피드백을 제공하는 것은 매우 중요한 일인데요, 선생님들에게 수많은 학생들의 글에 직접 피드백을 주는 것은 엄청난 부담으로 다가옵니다. ChatGPT가 학생 글쓰기 평가를 돕고, 의미있는 피드백을 빠르게 제공해줄 수 있을까요? 이번 포스트에서는 실제 선생님들이 ChatGPT를 학생 글쓰기 평가에 활용하고 있는 사례를 소개합니다. 거대 언어 모델(LLM)을 교육 분야, 특히 평가 분야에서 어떻게 활용할 수 있는지에 대한 인사이트를 얻어갈 수 있을 것 같습니다. Step 1. 전반적인 점수 매기기.. 2023. 7. 2.

이전 1 2 3 4 5 6 다음

티스토리툴바