본문 바로가기

분류 전체보기34

[PLM 모음] Deberta 포인트 요약 정리 본 포스트에서는 2020년 Microsoft의 "DeBERTa: Decoding-enhanced BERT with Disentangled Attention" 논문에서 제안한 Deberta 모델을 Bert 모델과 비교하여 포인트만 모아 정리해보았다. Disentangled attention mechanism Word representation(단어 표현) BERT 입력 레이어의 각 단어 = 단일 벡터(word embedding + position embedding) DeBERTa의 각 단어 = 두 개의 벡터(content, position 각각을 인코딩) Attention weight (단어 간 어텐션 가중치) (기존 어텐션 가중치 계산방법) (DeBERTa) content와 relative positio.. 2023. 4. 25.
Torchserve 사용 방법과 경로 설정 Torchserve는 프로덕션 환경에서 Pytorch 모델을 쉽고 빠르게 서빙하고 최적화하기 위한 툴이다. 본 포스트에서는 도커나 아나콘다 등의 환경은 배제하고 torchserve라는 툴의 원론적인 사용 방법과 문제가 생겼었던 경로 설정에 대해서 정리해보고자 한다. 1. 준비물 Model artifacts .bin,.pt,.pth 등의 모델 가중치 파일 config.json와 같은 형태의 모델 아키텍쳐 정보 model.save_pretrained('pytorch_model.bin'), torch.save(model.state_dict(), PATH) 등의 방법으로 저장한다. Tokenizer artifacts tokenizer_config.json, vocab.json, merge.txt,.. 등의 토크.. 2023. 4. 20.
[어휘 교육] 어떤 단어를 가르쳐야할까? - 어휘 선정 기준 다음 수업까지 학생들에게 영어 지문을 읽어오라고 하였다. 영어 텍스트에서 어떤 단어들을 골라서 가르쳐야할까? 이는 수업 자료를 구성하거나 교재를 제작하는 선생님들에게 어려운 문제이다. 가르칠 단어를 선정할 때 고려해 볼 수 있는 원칙들과 학습 어휘 선정 기준에 대해 이야기해보고자 한다. 단어의 3가지 단계 어휘 교육 방법론에 따르면 모든 텍스트는 3단계의 단어로 나뉘어질 수 있다. 1단계 (Tier 1) 구어체에서 흔하게 쓰이는 단어들이다. 언어 학습의 초기 단계에 있는 학습자들에게 매우 중요하지만, 일상 대화를 통해서 충분히 들을 수있는 빈도 높은 단어들이기 때문에 쉽게 습득할 수 있다. 일정 학습 수준을 넘어간 학습자들에게는 더 이상 학습의 초점이 되지 않는다. 2단계 (Tier 2) 일상 대화에서는.. 2023. 4. 19.
[MLops 기초] 프로덕션 환경에서의 머신러닝 시스템이란? Machine Learning 시스템이란? 머신러닝이란 데이터로부터 복잡한 패턴을 학습하여 이를 기반으로 처음 보는 데이터에 대해서 예측하는 방법론이다. 패턴이 반복적이며, 잘못된 예측에 대한 비용이 적고, 대량의 예측을 해야하는 문제들에 적합하다. 연구 환경과 프로덕션 환경에서 어떻게 다른가? 연구 환경에서의 머신러닝/딥러닝 모델은 고정된 벤치마크 데이터셋에 대해서 State-of-art 성능을 도달하도록 모델을 훈련하는 것이 최종 목표다. 하지만 프로덕션 환경에서는 끊임없이 변하고 생겨나는 데이터들에 대해서 빠르게 예측하는 것에 더 초점을 둔다. 연구 환경에서는 모델이 아무리 복잡하더라도 정확도가 1프로 올라간다면 매우 큰 성과겠지만, 프로덕션 환경에서는 성능이 조금 부족하더라도 자원과 비용이 덜 들.. 2023. 4. 18.