본문 바로가기

Research14

[논문리뷰] Simple and Scalable Strategies to Continually Pre-train Large Language Models 2024년 9월에 스터디에서 진행한 논문 리뷰를 기록용 포스트로 남겨둡니다. 원문: https://arxiv.org/pdf/2403.08763연구 목적/동기Continual Pretraining 시 새로운 데이터로 인해 distribution shift가 일어나, 이전 데이터에 대한 성능 저하가 일어나거나, 새로운 데이터에 적응을 잘 못시키는 문제몇 가지 훈련 테크닉으로 scratch로 훈련시키는 것과 맞먹는 성능을 낼 수 있다. 연구 방법데이터셋 (train/val)SlimPajama: llama 데이터셋인 RedPajama의 중복 제거하고 퀄리티 up (300B token dataset)German CommonCrawl (~200B token dataset)Pile: 800GB dataset for .. 2025. 5. 1.
[논문리뷰] Efficient Continual Pre-training for Building Domain Specific Large Language Models 과거에 논문 스터디를 진행하면서 작성해놓았던 논문 리뷰를 포스트로 공유합니다. Continual Pretraining 하위 개념인 DACP, TACP에 대한 실험을 참고하실 수 있습니다. ArxivID: https://arxiv.org/pdf/2311.08545Last edited time: September 10, 2024 7:11 PMTopic: Continual Pretraining정독 필요: No잘 설명된 한국어 블로그: https://introduce-ai.tistory.com/entry/논문-리뷰-Efficient-Continual-Pre-training-for-Building-DomainSpecific-Large-Language-Models연구 질문Domain-adaptive continu.. 2025. 2. 1.
[논문리뷰] Searching for Best Practices in Retrieval-Augmented Generation 과거에 논문 스터디를 진행하면서 작성해놓았던 논문 리뷰를 포스트로 공유합니다. 2024년 7월에 발표된 논문으로 RAG 방법론에 대한 최적의 파라미터와 방법론들을 실험한 연구이며, 전반적인 RAG 파이프라인 구성과 최신 방법론들을 참고하기에 좋습니다.ArxivID: https://arxiv.org/abs/2407.01219Last edited time: July 23, 2024 7:59 PMTopic: Best Practice, RAG정독 필요: No1. 연구 목적/동기쿼리에 의존적인 검색을 통해서 LLM의 성능을 향상 시키기 위한 최근의 RAG 방법론들은 구현이 복잡하고 응답 시간이 길다. 성능과 효율성이 좋은 RAG 방법론을 찾고 제안하고자함.2. 연구 방법각 모듈 별로 최상위 3가지 방법 선택 →.. 2025. 2. 1.
[논문리뷰] Reliable, Adaptable, and Attributable Language Models with Retrieval 본 포스트는 2024년 5월에 나온 "Reliable, Adaptable, and Attributable Language Models with Retrieval" 논문을 정리하였습니다.Retrieval Augmented Generation은 외부 지식 베이스을 참조하여 LLM의 출력을 최적화하는 인기 있는 방법론이지만, 주로 아주 성능이 좋은 검색 모델과 생성 모델에 의존하여 이를 이어붙이는 Frozen RAG가 아무래도 편의성과 확장성으로 인해 많이 쓰이고 있는 추세입니다. 본 논문에서는 Parametric LM에서 검색 증강 생성을 위한 구조를 갖춘 Retrieval-Augmented LM으로 나아가야 하고, 이를 위한 연구의 현주소와 방향성을 이야기하고 있습니다. University of Washi.. 2024. 8. 10.
LLM.int8()과 bitsandbytes를 활용하여 int8로 모델을 양자화하는 방법 이전 포스트에서 LLM을 효율적으로 훈련하는 방법 중 하나로 '양자화'를 소개하였습니다. https://yooonlp.tistory.com/21 LLM 효율적으로 훈련하기 - 양자화(Quantization)와 분산 훈련(Distributed Training) ※ 본 포스트는 Coursera 강의인 "Generative AI with Large Language Models"의 Week 1의 내용의 일부를 정리하고 필요한 내용을 추가하여 작성한 글입니다. GPU를 사용하여 모델 훈련을 진행하다 보면 “CUDA out o yooonlp.tistory.com 4byte를 차지하는 FP32 데이터 타입에서 2byte를 차지하는 BF16/FP16 데이터 타입을 사용한다면 모델 사이즈를 절반으로 줄일 수 있고, in.. 2023. 8. 13.
LLM 효율적으로 훈련하기 - 양자화(Quantization)와 분산 훈련(Distributed Training) ※ 본 포스트는 Coursera 강의인 "Generative AI with Large Language Models"의 Week 1의 내용의 일부를 정리하고 필요한 내용을 추가하여 작성한 글입니다. GPU를 사용하여 모델 훈련을 진행하다 보면 “CUDA out of memory”라는 메세지를 보셨을 것입니다. 언어 모델의 크기가 커질수록, 메모리 부족 문제를 많이 마주하게 됩니다. 아래는 현재 이 글을 작성하는 2023년 7월 기준으로 현재 올라온 모델의 사이즈를 나타낸 표인데, 21년도 이후에 등장한 언어 모델들은 10억 (1B) 파라미터는 기본이고, 1,000억 (100B) 이 훌쩍 넘는 초대형 언어 모델들이 등장합니다. 아무리 커도 3억 정도의 파라미터를 가졌던 BERT 모델 (340M) 과 비교하면.. 2023. 8. 1.