[Self-Supervised Learning and Large-Scale Pre-Trained Models] Part 6
2023. 1. 25. 17:50
๐ง๐ป๐ป์ฉ์ด ์ ๋ฆฌ
BERT
Self-Supervised Learning
- ์ฌ๋์ด ์ง์ ์ผ์ผ์ด ํด์ค์ผ ํ๋ ๊ทธ๋ฐ labeling ๊ณผ์ ์ด ์์ด๋ ์์ data๋ง์ผ๋ก ์ด๋ค ๋จธ์ ๋ฌ๋ model์ ํ์ต์ํฌ ์ ์์์ง์ ๋ํ ์์ด๋์ด model์ ๋๋ค.
- ์ ๋ ฅ data๋ง์ผ๋ก ์ ๋ ฅ data์ ์ผ๋ถ๋ฅผ ๊ฐ๋ ค๋๊ณ , ๊ฐ๋ ค์ง ์ ๋ ฅ data๋ฅผ ์ฃผ์์ ๋, ๊ฐ๋ ค์ง ๋ถ๋ถ์ ์ ๋ณต์ ํน์ ์์ธกํ๋๋ก ํ๋, ๊ทธ๋์ ์ฃผ์ด์ง ์ ๋ ฅ data์ ์ผ๋ถ๋ฅผ ์ถ๋ ฅ ํน์ ์์ธก์ ๋์์ผ๋ก ์ผ์ Model์ ํ์ตํ๋ task๊ฐ ๋๊ฒ ์ต๋๋ค.
- ์ด๋ Computer vision ์์์ inpainting task๋ฅผ ์๋ก ๋ค ์ ์์ต๋๋ค.
- ์ด model์ ํน์ ๋ฌผ์ฒด์ ํน์ง๋ค์ ์ ์๊ณ ์์ด์ผ๋ง ์ด task๋ฅผ ์ ์ํํ ์๊ฐ ์๊ฒ ๋ฉ๋๋ค.
- ์ด๋ฌํ ๋๊ท๋ชจ Data๋ก ์๊ฐ ํ์ต๋ Model์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ํน์ Task๋ฅผ ํ๊ธฐ ์ํ Transfer learning ํํ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค.
- ์ ์ชฝ์์๋ ํ์ต์ํค๊ณ ์ ํ๋ data๋ค์ ์ถ์ถํ๋๋ก ํ์ต ๋์์ ๊ฒ์ด๊ณ , ๋ค๋ก ๊ฐ ์๋ก ์ง์ ์ ์ผ๋ก ์ฃผ์ด์ง ํน์ task๋ค, inpainting์ด๋ ์ง์ ํผ์ฆ task์ ์ง์ ์ ์ผ๋ก ๊ด๋ จ์ด ๋๋ ๊ทธ๋ฐ ์ ๋ณด๋ค์ ์์ฃผ๋ก ํ์ต์ด ๋ ๊ฒ์ ๋๋ค.
- ์์ฐ์ด์ฒ๋ฆฌ ์ชฝ์์ ๋ง์ด ์ฑ๊ณต์ ๊ฑฐ๋์์ต๋๋ค.
BERT (Pre-training of Deep Bidrectional Transformers for Language Understanding)
- transformer model์ ๊ธฐ๋ฐ์ผ๋ก, bidrectional์ด๋ผ๋ ๋ง์ Language modeling task์์์ masked language modeling์ ํด๋นํ๋ ์๋ฏธ๋ฅผ ๊ฐ๊ณ ์๊ณ , ์ถ๊ฐ์ ์ธ ์๊ฐ ์ง๋ ํ์ต task๋ก์, Next sentence prediction task๋ผ๋ ๋ ๊ฐ์ง task๋ก ์๊ฐ ์ง๋ ํ์ต์ ์ํํ๊ฒ ๋ฉ๋๋ค.
- transformer model์์์ encoder๋ผ๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.
- ์ด BERT model์ self-supervised learning์ด๋ผ๋ task์ ํํ๋ก ํ์ต์ํค๊ธฐ ์ํด์ ๋๊ท๋ชจ Text data๋ฅผ ํ์ต Data๋ก ์ฌ์ฉํฉ๋๋ค.
- ์ ๋ ฅ ๋ฌธ์ฅ์ BERT model์ ์ ๋ ฅ sequence๋ก ์ ๊ณตํด ์ฃผ๋, self-supervised learning์์์ ๊ธฐ๋ณธ ๊ฐ๋ ์ธ ์ ๋ ฅ data์ ์ผ๋ถ๋ฅผ ๊ฐ๋ ค์ฃผ๊ณ ๊ทธ๊ฑธ ์์ธกํ๋๋ก ํ๋ ๊ทธ๋ฐ ๊ด์ ์์, ์ ๋ ฅ ๋ฌธ์ฅ์ ์ผ๋ถ ๋จ์ด๋ค์ mask๋ผ๋ ํน๋ณํ Special token์ผ๋ก ๋์ฒดํด์ค๋๋ค.
- ์๋ ์ด๋ค ๋จ์ด๊ฐ ๋ค์ด๊ฐ์ผํ๋์ง ๋ง์ถ๋ ๊ทธ๋ฐ task๋ก ํ์ตํ๊ฒ ๋ฉ๋๋ค.
- ๋, ์ฌ๋ฌ ๋ฌธ์ฅ์ด ์ฃผ์ด์ก์ ๋, fine-tuning์์ ํ์ฉํ ์ ์๋๋ก, self-supervised learningํ๋ pre-training ๋จ๊ณ์์๋ ๋ ๋ฌธ์ฅ์ด ์๋ฏธ ๊ด๊ณ๊ฐ ๋ฐ์ ํ๊ฒ ์ฃผ์ด์ ธ ์๋ ๊ทธ๋ฐ ๋ฌธ์ฅ์ธ์ง ํน์ ๊ทธ๋ ์ง ์์์ง Next sentence prediction์ ์ํํ๊ฒ ๋ฉ๋๋ค.
- ๋ ๋ฌธ์ฅ ์ฌ์ด์ special token์ธ separator token์ ์ถ๊ฐํด์ฃผ๊ณ , ๋ฌธ์ฅ ๋ง์ง๋ง์๋ ์ถ๊ฐํ์ฌ ๋ฌธ์ฅ๊ฐ์ ๊ตฌ๋ถ๊ณผ ๋์ model์๊ฒ ์๋ ค์ค ์ ์๋๋ก ํ๊ณ , CLS๋ผ๋ classification token์ ๊ฐ์ฅ ์ฒซ time step์ ์ถ๊ฐํด์ BERT model์ ์ ๋ ฅ sequence๋ก ์ฃผ๊ฒ ๋ฉ๋๋ค.
- ์ ์ฒด sequence๋ฅผ ์ ๋ฐ์ํด์ ํ์ํ ์ ๋ณด๋ค์ ์ encodingํ Hidden state vector ๋ค์ ๊ฐ ๋จ์ด๋ณ๋ก ๋ง๋ค์ด์ฃผ๊ฒ ๋๊ณ , CLS๊ฐ encoding๋ Vector๊ฐ ์๊ณ , ๋๋จธ์ง mask์ ํด๋นํ๋ ๋จ์ด๋ ๋๋ฆ๋๋ก encoding๋ vector๊ฐ ์ฃผ์ด์ง ๊ฒ์ ๋๋ค.
- ์ด ์ฐ์๋ ๋ฌธ์ฅ์ด ๊ด๋ จ์์ ๋ฒํ ๋ฌธ์ฅ์ธ์ง ์๋์ง๋ฅผ binary classification์ ํ๋ ๊ทธ๋ฌํ ๋ชฉ์ ์ผ๋ก CLS๋ผ๋ token์ด ์ encoding๋ vector๋ฅผ next sentence prediction์ด Output layer์ ์ ๋ ฅ์ผ๋ก ์ค์ binary classification์ ์ํํด ์ค๋๋ค.
- mask๋ก ๊ฐ์ถฐ์ง ํน์ ๋์ฒด๋ ๋จ์ด๊ฐ encoding๋ Hidden state vector๋ฅผ ๋ ์ด์ Output layer์ ์ ๋ ฅ์ผ๋ก ์ค์ ์๋ ๋จ์ด๋ฅผ ๋ง์ถ๋๋ก ํ๋ task๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค.
๋ ๊ฐ์ง์ BERT์ ๋ํ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Masked Language Model (MLM)
- ๋์ ๋จ์ด ์ค 80%๋ง mask token์ผ๋ก ๋ฐ๊ฟ ์ ๋ ฅ sequence๋ก ๋ฐ๊ฟ๋๋ค.
- 15%๊ฐ๋ ๋ฌธ์ ๋ก ์ถ์ ํฉ๋๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก encodingํ hidden state vector๋ฅผ ๊ฐ์ง๊ณ ๊ทธ ์๋ฆฌ์ ๋ค์ด๊ฐ ๋จ์ด๊ฐ ๋ฌด์์ธ์ง๋ฅผ ์์ธกํ๋๋ก ํ์ ๋๋ ์ด๊ฒ์ด Mask๋ก ๋์ฒด๋ ๋จ์ด ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ๋จ์ด๋ค๋ ์ต๋ํ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ Encoding ํ๋๋ก model์ด ํ์ต๋ ๊ฒ์ ๋๋ค.
- ๋ 10% ์ ๋๋ ๋จ์ด๋ฅผ ๊ทธ๋๋ก ๋๊ณ ๋ ๋ค๋ฅธ ๋จ์ด๊ฐ ๋ค์ด์ฌ ์ ์๋์ง ๋ง์ถ๊ฒ ํ๋ ์์ผ๋ก ํ์ต์ ์งํํ๊ฒ ๋ฉ๋๋ค.
- ๋ฌผ์ด๋ด์ผ๋ก์จ ์ง๊ธ ์ฃผ์ด์ง ๊ฒ์ ๋ต์ด ์๋๊ฒ ๊ตฌ๋๋ผ๋ ์๋ชป๋ ํจํด์ Deep Learning model์ด ๋ฐฐ์ฐ์ง ์๋๋ก ๊ทธ๊ฒ์ ๋ฐฉ์งํ๋ ์ฐจ์์์ ์๋ ๋จ์ด์ ๊ทธ๋๋ก ์ ์ง๋ ๋จ์ด๋ ์๋ ๋จ์ด๊ฐ ๋ง๋ค๊ณ ์์ธกํ ์ ์๋๋ก ํ๋ masked language model์ ์ค๊ณํ์ต๋๋ค.
- 15%์ ๋น์จ๋ก ์ค์ ๋ฌธ์ ์ถ์ ๋จ์ด๋ก ์ฌ์ฉํฉ๋๋ค.
- ์ด๊ฒ์ด ๋๋ฌด ์ ๊ฒ ๋๋ฉด ํ์ต ๊ณผ์ ์ด ๋นํจ์จ์ ์ด๊ฒ ๋ ์๋ ์๊ธฐ ๋๋ฌธ์, ๋๋ฌด ํฌ๋ค๋ฉด ๋น ๋ฅด๊ฒ ํ์ต์ด ๋์ง๋ง ๋๋ฌด ๋ง์ ๋จ์ด๋ฅผ ๊ฐ๋ฆฌ๋ฉด ์ค์ ์ ๋ณด๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ 15%๋ก ์ก์์ต๋๋ค.
- 80% mask token, 10%๋ random word, 10%๋ ๊ทธ๋๋ก ๋ก๋๋ค.
- ๋ ๊ฐ์ ๋ฌธ์ฅ์ SEP๋ก ๊ตฌ๋ถํ์ฌ ์ฃผ๊ฒ ๋ฉ๋๋ค.
Next Sentence Prediction (NSP)
- CLS token์ด ํน์ ํ encoding๋ Hidden state vector๋ก ๋์์ ๋, ์ด๊ฒ์ Output layer์ ํต๊ณผํด์ ์ฃผ์ด์ง ๋ฌธ์ฅ ๋ ๊ฐ๊ฐ ์ค์ original ๋ฌธ์์์ ์ฐ์๋๊ฒ ๋ฑ์ฅํ๋ ์ง์ง ๊ทธ ๋ ๋ฌธ์ฅ์ด์๋์ง, ๊ทธ๋ ๋ค๋ฉด ์ด ์ค์ ๋ ๋ฌธ์ฅ์ด next sentence ๊ด๊ณ์ ์๋ค๋ผ๊ณ ํ ๊ฒ์ด๊ณ , ์ฌ๋ฌ document๋ก๋ถํฐ ๋ฝ์์จ ๊ฐ๊ฐ์ ๋ฌธ์ฅ์ด๋ผ๋ฉด ๋ฌธ๋งฅ์ด ์ ๋ง์ง ์์ ๊ฒ์ ๋๋ค.
- ๋ ๊ฐ ๋ฌธ์ฅ ๊ฐ์ ๋ฌธ๋งฅ์ด๋ ๊ด๊ณ๋ฅผ ์ ๋ณด๊ณ , CLS token์ผ๋ก๋ถํฐ encoding๋ Hidden state vector์ next sentence prediction task์ binary classification ๊ฒฐ๊ณผ๊ฐ next sentence์ธ์ง ์๋์ง ์์ธกํ๋๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค.
- CLS๋ ํ์๋ก ํ๋ ๊ทธ ์ ๋ณด๋ค์ ์ฃผ์ด์ง ์ ๋ ฅ sequence ๋ด์ self-attention module์ ํตํด ์ ๋ณด๋ค์ ์ ์ถ์ถํด ์ค๋๋ก ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค.
Details of BERT
- Model Architecture
- BERT BASE // ๊น์ Layer๋ฅผ ๊ฐ์ง
- BERT LARGE
- input representation
- WordPiece embeddings
- Learned positional embedding
- CLS
- Packed sentence embedding
- Segment Embedding // positioning์ ์ค์ผ๋ก์จ ๋ช ๋ฒ์งธ ๋ฌธ์ฅ์ธ์ง ๊ตฌ๋ณ vector๋ฅผ ์ค๋ค.
- Pre-training Tasks
- Masked LM
- Next Sentence Prediction
- Classificaiton์ ์นดํ ๊ณ ๋ฆฌ๋ค์ ํด๋น ๋จ์ด์ ํ์ฌ๋ฅผ ์์ธกํ๋๋ก ํ๋ ์ด๋ฐ word level์ classification task์ fine-tuning ํํ๋ก BERT model์ ํ์ฉํ ์๊ฐ ์๊ฒ ๋ฉ๋๋ค.
- ๋ฌธ์ฅ level์์ ๊ธ์ ๋๋ ๋ถ์ ์ classification์ ์ํํ๋ ๊ฒฝ์ฐ์, CLS token์ encoding๋ ๊ฐ์ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด ์ถ๊ฐ์ ์ธ fully-connected layer ํ๋๋ฅผ ๋ฌ์์ ๊ธ์ ์ธ์ง ๋ถ์ ์ธ์ง ์์ธกํ๋๋ก ํ๋ fine-tuning task๋ฅผ ์ํํฉ๋๋ค.
- ๋ค์์ ๋ฌธ์ฅ์ ๋ณด๊ณ ์์ธกํ๋ Target task๋ ์กด์ฌํ ์ ์์ต๋๋ค.
- netural language inference task
- MultiNLI
- CoLa
- netural language inference task
- ๊ธฐ๊ณ ๋
ํด
- ์ง๋ฌธ๊ณผ ๋ต์ ํฌํจํ๋ paragraph ์ฃผ์ด์ง๋๋ค.
- ์ง๋ฌธ๋ด์์ ํน์ ๋จ์ด๋ค์ ์ถ์ถํด์ผํฉ๋๋ค.
- scalar ๊ฐ๋ค์ logit ๊ฐ์ผ๋ก ํ์ฉํด์ softmax์ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ ๊ฑฐ๊ธฐ์ ์ฃผ์ด์ง ์ง๋ฌธ ๋จ์ด๋ค์ ๋์์ผ๋ก classification์ ์ํํ๊ฒ ๋ฉ๋๋ค.
GPT (Generatvie Pre-Training Transformer task)
- GPT model์ ๊ฒฝ์ฐ๋ Transformer๋ฅผ ์ฌ์ฉํ์๋ค.
- Transformer์์ decoder model์ ์ฌ์ฉํฉ๋๋ค.
- decoder model ์ ๊ฐ์ฅ ํฐ ํน์ง์ masked self-attention์ด๋ผ๋ ๊ฒ์ด ์์ต๋๋ค.
- ๊ธฐ๋ณธ์ ์ผ๋ก auto-regressiveํ ์ฃผ์ด์ง ์ ๋ ฅ sequence์ ๋ํด์ ํ์ฌ time step์์ ๋ค์ time step์ ๋ํ๋ ๋จ์ด๋ฅผ ์์ธกํ๋ task๋ฅผ ์ํํฉ๋๋ค.
- work level์ language modeling task๋ฅผ ํ์ตํ๋ ๊ฒ์ด GPT model์ ํต์ฌ idea๊ฐ ๋ฉ๋๋ค.
- GPT-2 : Language Models are Unsupervised Multi-task Learners
- transformers์์์ self-attention block์ ๊ต์ฅํ ๊น์ด ์์์ model size๋ฅผ ๊ต์ฅํ ํค์ ์ต๋๋ค.
- model ํ์ต์ ์์ด ๊ต์ฅํ ๋ง์ ์์ text data๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
- ์์ง์ Data๋ฅผ ์ต๋ํ ์ฌ์ฉํ์ ๋ ๋ค์ ๋จ์ด ์์ธก์ด ๋ ์ ์๋ฏธํ ๊ฒ์ ์ฌ์ฉํ ๊ฒ์ด๋ผ๋ ๊ฒ์ ํตํด, ์ด๋ค ์ปค๋ฎค๋ํฐ์์ ์ง๋ฌธ์ ๋ต์ ํตํด ์ต์ํ 3๊ฐ ์ด์์ ์ข์์๋ฅผ ๋ฐ์ ๊ฒ์ ๋ํด ๋งํฌ๊ฐ ํฌํจ๋์ด ์์ ๋, ๋งํฌ๋ฅผ ํ๊ณ ๋ค์ด๊ฐ, ๋งํฌ ๋ด์ ๋ฌธ์๋ฅผ ์ค์ ํ์ต data๋ก ์์งํด์ ์ด data๋ฅผ ๋์์ผ๋ก language modeling task๋ฅผ ํ์ตํ์ต๋๋ค.
- zero-shot setting์์์ down-stream task ์ ๋ฐ๋ก ์ ์ฉํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- TLDR (Too Long Didn't Read)๋ฅผ ๋ณด๊ณ ๋ค๋ฅผ ์์ฝํด์ผํ๋ค๋ ํ๋จ์ ํฉ๋๋ค.
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฐ์ง ์์์์๋ summarization task๋ฅผ ํ์ฌ zero-shot์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ๋ฆฌ๊ฒ ๋์์ต๋๋ค.
- GPT-3
- decoder ๊ทธ๋๋ก ๊ณ์นํ๊ณ ํ์ต data๋ ํจ์ฌ ์ปค์ก๊ณ , ์ด์ ๋ณด๋ค ์์ฒญ๋๊ฒ ๋ง์ layer ์๋ฅผ ๊ฐ์ง๊ณ ์ฝ 1,750์ต๊ฐ์ Parameter๋ฅผ ๊ฐ์ง๋ ๊ทธ๋ฌํ transformer decoder model์ ํ์ตํ ๊ฒ์ ๋๋ค.
- ์ด model์ zero-shot๊ณผ ๋๋ถ์ด Few-shot learning์ ์ฌ๋ก๋ก ๋ณด์ฌ์ค ์ ์๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
- ๋ค์์ ๋ํ๋ ๋จ์ด๋ฅผ ๋ถ์ด๋ก ๋ฒ์ญํด์ค์ ๊ฐ์ ์ง์๊ฐ ๊ฐ๋ฅ. ์ด๋ฐ ๊ฒ์ด zero-shot learning์ ๋๋ค.
- GPT-2์์๋ ๊ฐ๋ฅํ์ง๋ง ํ์ต๋ฐ์ดํฐ ์์ด๋ ์ ํ์ ์ด๊ธฐ ๋๋ฌธ์, GPT-3์์ ๊ธ์ ์ผ๋ถ๋ฅผ ์ ๊ณตํด์ค์ผ๋ก์จ language modeling task ์์ฒด๋ฅผ ๋ฐ๋ก task์ ํ์ฉํ๋ ์ฌ๋ก์
๋๋ค.
- zero-shot์ ๋นํด ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ ์ฃผ์ด์ ์ํํ๋ฉด one-shot learning task์ด๊ณ ๋ช ๊ฐ ๋ ์ค๋ค๋ฉด few-shot learning์ด ๋ฉ๋๋ค.
- few-shot learning์ ์ฑ๋ฅ์ด ๊ฝค ์ข๋ค๊ณ ํฉ๋๋ค.
- ์ด ์์๋ฅผ ๋ช ๊ฐ๋ฅผ ์ฃผ์ด์ ์ด GPT-3๋ผ๋ ๊ณ ์ ์ ์ธ Model์ด ๊ฐ์ฅ ์ ํ์ต๋๋์ง์ ๋ํ task๋ฅผ prompt tuning์ด๋ผ๊ณ ํฉ๋๋ค.
- GPT model์ language modeling ๋ฅ๋ ฅ์ ํ์ฉํด์
- ๊ธ์ ๋ท ๋ถ๋ถ์ ์ฐฝ์ํ๋ ์ฉ๋๋ก ํ์ฉํ ์๊ฐ ์์ต๋๋ค.
- Copilot
- GPT-3 model์ ๊ฐ์ ธ์์ ํ๋ก๊ทธ๋จ Data์ ์ง์คํ์ฌ GPT-3 model์ fine-tuningํ ํ๋ก๊ทธ๋จ์ ์๋์์ฑ task๋ฅผ ์ ๊ตฌํํ๋๋ก ํ์์ต๋๋ค.
- ํ๊ธ data์๋ ๋ง์ ์๋๊ฐ ์์ต๋๋ค.
- HyperCLOVA model
Model์ size๋ ์ ์ ์ปค์ง๊ณ ์๊ตฌ data๋ ์ ์ ์ปค์ง๋๋ค.
GPU ์ฌ์ฉ๋๋ ์ ์ ์ปค์ง๊ณ ์์ต๋๋ค.
ํ๋์ Model์ด ์ฌ๋ฌ ์ฉ๋๋ก ๋ฐ๋ก ์ฌ์ฉ๋ ์ ์๋ model์ด ๋์ด๋จ์ ๋ฐ๋ผ, ๋ฒ์ฉ ์ธ๊ณต์ง๋ฅ์ผ๋ก์ ํ Model์ด ์ฌ๋ฌ task๋ค์ ์ ํ ์ ์๋ ์ ์ฉํ ํํ๋ก ๊ธฐ์ ์ด ๋ฐ๋ฌํ๊ณ ์์ต๋๋ค.
'Artificial Intelligence' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Time-Series data] RNN ๊ธฐ๋ฐ ๋ค๋ณ๋ ์๊ณ์ด ๋ฐ์ดํฐ ํ๊ท๋ชจํ (0) | 2023.01.27 |
---|---|
[Causality] ์ธ๊ณผ์ถ๋ก (0) | 2023.01.26 |
[Transformer] Part 5 (1) | 2023.01.25 |
[Seq2Seq with Attention for Natural Language Understanding and Generation] Part 4 - 2 (0) | 2023.01.25 |
[Seq2Seq with Attention for Natural Language Understanding and Generation] Part 4 - 1 (0) | 2023.01.25 |