[논문리뷰] Efficient Continual Pre-training for Building Domain Specific Large Language Models

과거에 논문 스터디를 진행하면서 작성해놓았던 논문 리뷰를 포스트로 공유합니다. Continual Pretraining 하위 개념인 DACP, TACP에 대한 실험을 참고하실 수 있습니다.

ArxivID: https://arxiv.org/pdf/2311.08545
Last edited time: September 10, 2024 7:11 PM
Topic: Continual Pretraining
정독 필요: No

연구 질문

Domain-adaptive continual pretraining (DACP) 이

domain-specific LLM을 만드는데 유용한가?

→ Pretrained 모델 훈련 데이터의 8% 크기의 도메인 데이터로 금융 벤치 성능 향상
효과적인 훈련을 위해 data selection strategies를 사용할 수 있는가?

→ 도메인 데이터의 10% 또는 사전학습 데이터 0.8% 만으로도 도메인 성능 향상
이 훈련이 open domain 능력을 떨어뜨리는가?

→ open domain 데이터셋으로 평가했을 때 여전히 범용 성능을 유지한다

Domain Adaptive Pretraining
- 정답이 없는 큰 도메인 코퍼스에 대해 사전 훈련을 이어나감
- 엄청난 양의 데이터를 훈련시키기 때문에 비용이 많이 듦
(선행 연구) PRETRAINED LANGUAGE MODEL IN CONTINUAL LEARNING: A COMPARATIVE STUDY
- Continual learning 이란, 새로운 데이터에 대한 지식을 축적할 수 있는 방법
- 관건은 이전에 사전 학습에 사용했던 지식을 잊지 않고 새로운 지식을 집어넣을 수 있는가?

Task Adaptive Pretraining
- 주어진 태스크를 위한 성능 향상을 위해 (태스크 레이블 있든 없든) 훈련 데이터에 대해 pretraining을 하는 방식
- task-specific LLM을 만듦
- 훨씬 더 작은 데이터셋을 사용함 → 애초에 데이터가 많이 없음.
- 주료 소형 모델에 대한 연구가 많이 이루어짐.
(선행연구) Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
- task dataset으로 pretraining하는 것은 task 성능 향상에 기여함
- DAPT, TAPT에 대해 언급하는 논문
- DAPT and TAPT complement each other

DACP 비용이 많이 듦, TACP 데이터가 너무 없음

Raw Domain Corpus (U)가 있고,
ex. 의료 말뭉치
도메인 내의 라벨링된 Task Data (T) 가 있다고 가정 (단일, 다중 태스크 모두 가능)
ex. 의료 텍스트 요약 task: (in) 의료 보고서 → (out) 주요 진단 내용 요약
Data Selection의 목표: LLM 사전학습에 유용한 D를 선택하는 것.
(이렇게 하면 pretrain동안에 domain 적응이 되고, task에도 align이 될 것이다)
두 가지 data selection strategies
1. task-similar (ETS) - task data가 있는 경우
2. task-agnostic (ETA) - task data가 없는 경우

이 결과는 라벨이 없는 Task 데이터를 가지고 LLM에 task-adaptive 및 domain continual pre-training을 수행하는 것이 효과적임을 뒷받침하며, 이는 다른 모델 유형에서 관찰된 결과와 일치한다
또한, 도메인 데이터의 10%(2.39B)는 Pythia가 원래 학습한 3,000억 개의 토큰 중 1% 미만에 해당한다.
적은 학습량을 통한 도메인 성능 향상은 continual pre-training 과정에서 데이터를 선택적으로 선별하는 것이 적은 비용으로 도메인 성능에 큰 영향을 미칠 수 있음을 보여준다.

[논문리뷰] Simple and Scalable Strategies to Continually Pre-train Large Language Models (1)	2025.05.01
[논문리뷰] Searching for Best Practices in Retrieval-Augmented Generation (0)	2025.02.01
[논문리뷰] Reliable, Adaptable, and Attributable Language Models with Retrieval (0)	2024.08.10
LLM.int8()과 bitsandbytes를 활용하여 int8로 모델을 양자화하는 방법 (0)	2023.08.13
LLM 효율적으로 훈련하기 - 양자화(Quantization)와 분산 훈련(Distributed Training) (0)	2023.08.01