I am an ongoing learner, practitioner and researcher.

Currently Master’s student, educational technology, Seoul National University

[GenAI] L1-P2-1. Pretrainig LLM, 3 types of Model Arhcitecture

Part 2. LLM pre-training and scaling laws

W1_page-0091

W1_page-0093

W1_page-0094

바닥부터 모델을 학습시키는게 이점이 있는 specific한 상황이 있을 순 있다…
BUT, 이미 존재하는 foundation model을 갖고 application 을 제작하는게 일반적!
- Model hub 에서 살펴보며 쇼핑:)

W1_page-0096

위와 같은 정보를 통해 모델 선택 가능

W1_page-0098

training data를 모은다면, 데이터 품질을 위한 작업이 필요
- address bias
- remove harmful content
위 과정에서 1-3% tokens 정도만 pre-training 에 사용되곤 함
- 모델을 pre-training 하겠다 마음먹을 때 얼마나 필요할지 꼭 고려해야 하는 부분!

W1_page-0100

= Autoencoding models
masked language modeling(MLM)으로 사전 학습됨
- random mask된 토큰 input
- mask 토큰 예측하기
  - 위 과정을 “denoising objective” 라고도 함
input sequence에 대해 Bidirectional representation 을 가짐
- 모델이 토큰의 전체 문맥을 이해하고 있다는 뜻 (이전 단어만이 아닌!)

W1_page-0101

bi-directional context를 가진 task에 적합!
- sentence classification
- token classfication

W1_page-0102

= Autoregressive models
casual language modeling(CLM)을 통해 학습
- 이전 token sequence에 의해 다음 token을 예측하는게 학습 목표
  - 다음 단어 예측 = Full Language Modeling 이라고도 부름
모델은 바로 앞 input 토큰만을 알고 있음
- 모델은 문장의 마지막이 어떻게 될지 전혀 모른다는 뜻
- input sequence에 대해 ‘한 token’씩 반복하며 ‘바로 다음 token’을 예측
context is unidirectional

W1_page-0103

W1_page-0104

W1_page-0105

W1_page-0106

W1_page-0108

W1_page-0109

(위 본문 내용 및 ppt 사진 자료는 모두 DeepLearning.AI 의 강의자료에서 가져왔으며, 상업적 목적으로 이용할 수 없습니다.)