본문 바로가기

LLM4

[논문리뷰] Efficient Continual Pre-training for Building Domain Specific Large Language Models 과거에 논문 스터디를 진행하면서 작성해놓았던 논문 리뷰를 포스트로 공유합니다. Continual Pretraining 하위 개념인 DACP, TACP에 대한 실험을 참고하실 수 있습니다. ArxivID: https://arxiv.org/pdf/2311.08545Last edited time: September 10, 2024 7:11 PMTopic: Continual Pretraining정독 필요: No잘 설명된 한국어 블로그: https://introduce-ai.tistory.com/entry/논문-리뷰-Efficient-Continual-Pre-training-for-Building-DomainSpecific-Large-Language-Models연구 질문Domain-adaptive continu.. 2025. 2. 1.
[논문리뷰] Searching for Best Practices in Retrieval-Augmented Generation 과거에 논문 스터디를 진행하면서 작성해놓았던 논문 리뷰를 포스트로 공유합니다. 2024년 7월에 발표된 논문으로 RAG 방법론에 대한 최적의 파라미터와 방법론들을 실험한 연구이며, 전반적인 RAG 파이프라인 구성과 최신 방법론들을 참고하기에 좋습니다.ArxivID: https://arxiv.org/abs/2407.01219Last edited time: July 23, 2024 7:59 PMTopic: Best Practice, RAG정독 필요: No1. 연구 목적/동기쿼리에 의존적인 검색을 통해서 LLM의 성능을 향상 시키기 위한 최근의 RAG 방법론들은 구현이 복잡하고 응답 시간이 길다. 성능과 효율성이 좋은 RAG 방법론을 찾고 제안하고자함.2. 연구 방법각 모듈 별로 최상위 3가지 방법 선택 →.. 2025. 2. 1.
Pre-training LLM 분류하기 (Encoder, Decoder, Encoder-Decoder) ※ 본 포스트는 Coursera 강의인 "Generative AI with Large Language Models"의 Week 1의 내용의 일부를 정리하고 필요한 내용을 추가하여 작성한 글입니다. 순환신경망(RNN)이 처음 등장하였을 때는 시간에 따른 데이터의 패턴을 학습하는 능력으로 인해 매우 유용하게 사용되었습니다. 하지만 RNN이 생성을 잘하기 위해서는 많은 연산량과 메모리를 필요로 한다는 단점이 있었으며, 단순히 이전 몇 개의 단어를 통해 다음 단어를 예측하는 방식은 생성 과제를 제대로 수행하기는 힘들었습니다. 모델은 몇 개의 단어만이 아니라, 전체 문장, 문단, 더 나아가 문서까지도 이해해야하며, 언어는 동음이의어, 구조적 중의성 등의 복잡한 요소들이 많았기 때문에 RNN으로는 한계가 존재하였습.. 2023. 7. 16.
[LLM 모음] InstructGPT의 훈련 과정 알아보기 (feat. RLHF) 본 포스트에서는 ChatGPT가 현재처럼 인간과의 대화를 잘 수행하도록 해준 OpenAI의 InstructGPT가 어떻게 훈련되었는지 자세히 알아보도록 하겠습니다. InstructGPT 페이퍼(Training language models to follow instructions with human feedback)를 참고하여 작성하였습니다. OpenAI의 ChatGPT 소개글에 들어가면(Introducing ChatGPT), 다음과 같이 ChatGPT를 소개하고 있습니다. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response. 기.. 2023. 6. 4.