자연어처리 6

[NLP] Sequential Data Modeling

🧑🏻‍💻용어 정리 Neural Networks RNN LSTM Attention CNN Sequential Data Modeling Sequential Data Most of data are sequential Speech, Text, Image, ... Deep Learnings for Sequential Data Convolutional Neural Networks (CNN) Try to find local features from a sequence Recurrent Neural Networks : LSTM, GRU Try to capture the feature of the past 지금까지 입력에 대해 살펴보았죠. 그런데, 그 입력에 대해서 다 output이 존재합니다. 우리는 그 output을..

[NLP] RNN - LSTM, GRU

🧑🏻‍💻용어 정리 Neural Networks RNN LSTM Attention RNN은 sequence 정보를 학습하고자 하는데, 뒤로 갈수록 앞에 학습한 것들을 잘 잊어버리는 "Long Term Dependency" 문제가 존재합니다. 그래서 LSTM과 GRU가 나왔습니다. 다음과 같이 살펴봅시다. Long Short-Term Memory (LSTM) Capable of learning long-term dependencies. LSTM networks introduce a new structure called a memory cell. An LSTM can learn to bridge time intervals in excess of 1000 steps. Gate units that learn to..

[NLP] Word Embedding - Skip Gram

🧑🏻‍💻 주요 정리 NLP Word Embedding Skip Gram Skip Gram skip gram은 CBOW 과정에서 Input과 output을 반대로 하는 것으로 볼 수 있습니다. 다음 그림을 보겠습니다. 위와 같이 sat을 input으로 넣고, 나머지 4개의 단어를 출력으로 받는 형태입니다. 위와 같이 W와 W'의 형태로 학습. 그리고, 위와 같이 단어에 대하여 vector 값을 embedding 작업을 거칩니다. 그러나, 우리는 여기서 다른 가치를 둡니다. 우리는 딥러닝에서 FeedForward를 통해 학습을 하고, 원래 값과 비교하여 정확도를 볼 수 있고, loss 값을 통해 정확도의 판단 기준를 볼 수 있습니다. 그에 대한 확률 값은 softmax function을 통과하고 난 뒤 나옵..

[NLP] Overview NLP

🧑🏻‍💻 주요 정리 NLP Word Embedding Modeling Sequence MLP CNN RNN Language Modeling Autoregressive Language Modeling Machine Translation Seq2Seq Attention Transformer 배경 지식 NLP를 배우기 위해선 다음과 같은 구성요소들을 알아야 합니다. 함께 알아봅시다. Word Embedding 컴퓨터는 인간의 언어를 알아듣지 못 합니다. 그래서 우리는 이 문자들을, 이 Semantic 단어를 어떤 숫자로 mapping 시켜주어야 합니다. 이를 word embedding 작업이라고 부릅니다. Each word can be represented as a vector based on the Dist..

[Self-Supervised Learning and Large-Scale Pre-Trained Models] Part 6

🧑🏻‍💻용어 정리 BERT Self-Supervised Learning 사람이 직접 일일이 해줘야 하는 그런 labeling 과정이 없이도 원시 data만으로 어떤 머신러닝 model을 학습시킬 수 없을지에 대한 아이디어 model입니다. 입력 data만으로 입력 data의 일부를 가려놓고, 가려진 입력 data를 주었을 때, 가려진 부분을 잘 복원 혹은 예측하도록 하는, 그래서 주어진 입력 data의 일부를 출력 혹은 예측의 대상으로 삼아 Model을 학습하는 task가 되겠습니다. 이는 Computer vision 상에서 inpainting task를 예로 들 수 있습니다. 이 model은 특정 물체의 특징들을 잘 알고 있어야만 이 task를 잘 수행할 수가 있게 됩니다. 이러한 대규모 Data로 자..

[Transformer] Part 5

🧑🏻‍💻용어 정리 Transformer Transformer RNN과 CNN 없이 attention module만으로 전체 Sequence를 입력 및 출력으로 처리할 수 있는 동작이 이루어집니다. RNN model의 Long-term Dependency Issue가 존재합니다. 입력으로 주는 h t에 정보가 변질되지 않고 잘 축적되어 있어야 합니다. 저 멀리있는 곳에서 학습 데이터 소실이 일어났다면, gradient signal을 저 멀리 있는 time step까지 전달해 줘야 하는데, 여러 time step에 걸쳐서 gradient 정보가 전달되면서, 정보가 변질되는 문제가 생겨 학습이 제대로 이루어지지 않을 수 있습니다. 그래서, transformer model에서 attention model을 사용..