※ 본 포스트는 Google AI Blog에 2023.5.15일자로 업로드된 "Larger language models do in-context learning differently"를 번역 및 참고하여 정리한 글입니다. 잘못 번역된 부분이 있을 수 있고, 저의 생각이 반영된 부분이 있으니 주의해주시고 피드백 주시면 감사하겠습니다.
최근 언어 모델에서는 엄청난 발전이 이루어지고 있는데, 그 이유 중 하나로는 몇 개의 input-label 예시를 프롬프트에 넣어주어 주어진 맥락 속에서 학습하도록 하는 방식인, in-context learning (ICL)을 통해서 높은 성능으로 태스크를 수행하기 때문입니다. LLM이 in-context learning이 가능한 이유로 저자들은 두 가지를 이야기 하고 있습니다.
- In-context 예시의 형식을 따르면서 Pre-training에서 얻은 의미론적 사전 지식 사용 (Semantic priors)
- 예시에서 input-label 맵핑 방식을 학습 (Input-label mappings)
본 페이퍼에서는 이 두 가지 요소들이 ICL에서 어떻게 상호작용하는지, 특히 언어 모델의 크기에 초점을 두어 실험을 진행하였습니다.
이를 위해 다음과 같은 두 가지 실험 세팅을 하였습니다.
- Flipped-label ICL: 프롬프트에 정답이 아닌 라벨을 예시로 주어, 사전 지식과 input-label 맵핑이 일치하지 않도록 하였습니다.
- Semantically-unrelated labels: 프롬프트에 라벨을 의미적으로 관련이 없는 단어들을 주었습니다.
예를 들어, 일반적인 in-context learning의 입력을 다음과 같이 넣는다고 가정하면, 빈 칸에 들어갈 정답, 즉 라벨은 Positive입니다.
- Contains no wit [...] \n Negative
- Very good viewing [...] \n Positive
- A smile on your face \n ________
Flipped-label ICL 세팅에서는 반대의 라벨을 맵핑하여 입력으로 넣으며, 라벨 또한 반대로 Negative로 예측하게 됩니다.
- Contains no wit [...] \n Positive
- Very good viewing [...] \n Negative
- A smile on your face \n ________
Semantically-unrelated label ICL 세팅에서는 의미가 전혀 관련이 없는 라벨을 예측하도록 합니다.
- Contains no wit [...] \n Foo
- Very good viewing [...] \n bar
- A smile on your face \n ________
결론부터 말하자면, 저자들은 LLM이 의미적으로 관련 없는 라벨의 맥락 내에서 학습을 하는 것을 통해, 사전 지식을 무시하는 능력이 있다는것을 발견하였습니다. 또한 Instruction tuning을 통해서 input-label의 맵핑보다는 사전 지식을 활용하도록 훈련할 수 있다는 것을 발견하였습니다.
실험 설계
저자들은 다양한 데이터셋을 사용하기 위해, 7가지 NLP 태스크(감정 분석, 주관적/객관적 문장 분류, 질문 분류, 중복 질문 인식, 텍스트 함의 인식, 금융 감정 분석, 혐오 발언 탐지)에 대해서 실험을 진행하였습니다. 언어 모델은 PaLM, Flan-Palm, GPT-3, InstructGPT, Codex 총 다섯 개를 테스트하였습니다.
Flipped labels
라벨을 뒤바꾸는 이 실험세팅은 모델이 ICL에서 그들의 사전 지식을 무시하는지를 확인합니다. 만약 모델이 사전 지식을 무시하면, input-label 맵핑을 학습할 수 있다면, 평가 라벨은 바뀌지 않았기 때문에 성능 저하가 나타날 것입니다.
라벨이 바뀌지 않았을 때는, 예상대로 큰 모델이 작은 모델보다 더 나은 성능을 보여줍니다. 하지만 라벨을 뒤바꿀수록, 작은 모델의 성능은 비교적 변하지 않는 데에 비해, 큰 모델들은 랜덤 예측보다 성능이 낮아집니다.
이 결과는 큰 모델이 모순되는 정보들이 맥락으로 주어졌을 때, 사전 훈련 때 얻은 사전 지식을 활용하지 않고, 맥락 내의 정보를 활용한다는 것을 가리킵니다. 작은 모델은 그렇지 않았으며, 이는 큰 모델에서 나타나는 현상으로 생각할 수 있습니다. (*작은 모델은 모순되는 정보가 주어졌을 때, 사전 지식을 활용하여 예측하기 때문에 성능 저하가 일어나지 않는다고 봐도 될지 모르겠네요. 이 경우는 모순되는 정보가 주어졌을 때만 일어나는 현상인지, 작은 모델은 맥락 정보보다는 사전 지식에 의존한다고 일반화를 해도 되는지?)
Semantically-unrelated labels
전혀 의미와 관련이 없는 라벨을 세팅하므로서, 모델은 input-label 맵핑을 통해서만 ICL을 수행합니다. 모델이 사전 지식에 대체로 의존한다면, 의미가 관련 없는 라벨을 예측할 때는 의미를 사용할 수 없기 때문에 성능이 저하될 것입니다. 반면에 모델이 맥락 내 정보에 의존한다면, 이 라벨들을 학습할 수 있을 것이고 성능 저하가 일어나지 않을 것입니다.
작은 모델에서는 이 라벨들에 대해서 성능 저하가 나타났고, 이는 작은 모델들이 주어진 맥락 정보보다 사전 지식을 사용한다는 것을 의미합니다. 반면에 큰 모델들은 라벨에서 의미 정보가 사라졌을 때 맥락 내에서 input-label 맵핑을 학습할 수 있습니다. 또한 큰 모델에게 더 많은 맥락 정보를 주었을 때 성능향상이 더 큰 폭으로 나타난 것을 확인할 수 있었습니다. 이는 큰 모델이 작은 모델보다 맥락 정보를 잘 활용한다는 것을 의미합니다.
Instruction tuning
Instruction으로 표현되는 다양한 NLP 태스크에 모델을 튜닝하는 법으로, 최근에 LLM을 향상시키기 위해 널리 사용되고 있습니다.
예시로 다음을 들 수 있습니다.
- 질문: 다음 문장의 감정은 무엇인가, "영화는 최고다" 답변: 긍정
하지만 Instruction tuning에서의 한 가지 의문점은 이것이 주어진 맥락 내의 학습 능력을 향상시키는지, 기존의 의미론적 사전 지식을 사용하는 것을 강화하는지 알 수 없다는 것입니다. 그래서 저자들은 위에서 소개한 두 가지 실험 세팅을 기존 언어 모델과 instruction-tuned 버전의 모델을 비교하였습니다. 본 연구에서는 PaLM과 Flan-PaLM을 사용하였습니다.
의미가 관련없는 라벨을 사용할 때는 Flan-PaLM이 PaLM보다 성능이 좋았고, 이는 예상대로 instruction tuning이 input-label 맵핑을 배우도록 촉진한다는 것을 의미합니다. 흥미로운 사실은, Flan-PaLM이 PaLM보다 뒤바뀐 라벨을 학습하지 못하였고, 즉 기존 모델은 평가 시 더 낮은 성능을 보여주었으며, 이는 instruction-tuned 모델이 사전 지식을 무시하지 못한다는 것을 의미합니다. 이러한 결과는 instruction tuning을 통해서 모델이 필요할 때 사전 지식을 활용하도록 강화할 수 있다는 것을 함의하고 있습니다.
정리
본 연구는 LLM이 ICL 수행 시 사전 지식에 의존하는지, 맥락 내의 정보에 의존하는지 알아보는 실험이었습니다. 큰 모델일수록 in-context learning에서 맥락 정보를 더 잘 활용합니다. 잘못된 라벨을 ICL에 집어넣으면 사전 지식보다는 맥락정보를 활용하기 때문에 성능 저하가 나타납니다. 대신에 그만큼 큰 모델에 맥락 정보를 길고 자세하게 넣어줄 수록 성능 향상이 큰 폭으로 나타나기도 합니다. Instruction-tuned 모델과 기존 모델을 비교했을 때에는, instruction-tuned 모델이 주어진 잘못된 라벨보다는 사전 지식을 더 활용하는 경향성을 보였습니다. LLM 모델 크기에 따른 ICL 양상과 instruction-tuning의 역할에 대해서 알아보는 논문이었으며, 이런 현상이 왜 발생하는지는 추후 연구되어야할 부분입니다.
- 원문 링크
Larger language models do in-context learning differently
Posted by Jerry Wei, Student Researcher, and Denny Zhou, Principal Scientist, Google Research There have recently been tremendous advances in language models, partly because they can perform tasks with strong performance via in-context learning (ICL), a pr
ai.googleblog.com
'Research > NLP' 카테고리의 다른 글
Pre-training LLM 분류하기 (Encoder, Decoder, Encoder-Decoder) (0) | 2023.07.16 |
---|---|
[LLM 모음] Llama와 Alpaca (0) | 2023.06.11 |
[LLM 모음] InstructGPT의 훈련 과정 알아보기 (feat. RLHF) (1) | 2023.06.04 |
강화학습과 InstructGPT - part 1 (0) | 2023.05.28 |
[PLM 모음] Deberta 포인트 요약 정리 (0) | 2023.04.25 |