LSTM 5

[NLP] Transformer

🧑🏻‍💻용어 정리 Neural Networks RNN LSTM Attention Transformer Generator discriminator self-attention layer normalization multi-head attention positional encoding https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect..

[Deep Learning] Recurrent Neural Network (3) - Attention

🧑🏻‍💻용어 정리 Neural Networks Recurrent Neural Network LSTM Attention 지난 시간에 RNN에 이어 LSTM까지 살펴보았습니다. 이번에는 NLP를 현재 엄청나게 핫하게 해준 Attention에 대해 살펴보겠습니다. Attention Mechanism 이 Attention 개념을 통해서 우선, 우리가 주목하지 않았던 것들에 대해서 주목하기 시작한다는 것입니다. 이것은 결국 잃어버렸던 것에 대해서 주목을 하겠다는 것입니다. 이것은 Long-term Dependency에 대한 문제로 돌아옵니다. CNN에서의 depth처럼 RNN에서의 Sequence가 길어졌을 때 발생하는 문제는 비슷합니다. 이 문제를 해결하는 Algorithm이 필요합니다. 이를테면, Decode..

[Deep Learning] Recurrent Neural Network (2) - LSTM

🧑🏻‍💻용어 정리 Neural Networks Feed-forward Backpropagation Convolutional Neural Network Recurrent Neural Network LSTM Attention Cell state forget gate input gate output gate 이전 시간까지 RNN의 여러 가지 종류에 대해 알아보았습니다. 조금 더 살펴봅시다. RNN의 단점 RNN을 쭉 연결시켜 놓고 보니, 특히 Encoder, Decoder 부분에서 확연히 들어나는 이 특징은, 너무 입력되는 문장이 길다보니, Long-Term Dependency 문제가 발생합니다. input signal의 정보를 h t에 과거에서부터 계속 모아옵니다. 그런데 과거의 더 이전 시점의 무언가가 필..

[NLP] Attention

🧑🏻‍💻용어 정리 Neural Networks RNN LSTM Attention Attention을 쓰는 이유? 굉장히 긴 문장이 들어왔다고 봅시다. 100개의 hidden state가 있어서, 맨 마지막의 sentense embedding이 output 생성할 때, 모든 단어의 정보를 다 포함하고 있을까요? output을 생성할 때, 각각의 단어를 다 보면서, 현재 hidden state와 각 100개의 hidden state간의 관계를 구하며 가장 attention score가 높은 것을 선택을 합니다. 결국, encoder가 source sentence를 하나의 vector로 encoding하기 어렵습니다. 그래서 이러한 seq2seq task 에서는 길이가 길 때, 성능이 떨어지는 문제가 있습니다..

[NLP] RNN - LSTM, GRU

🧑🏻‍💻용어 정리 Neural Networks RNN LSTM Attention RNN은 sequence 정보를 학습하고자 하는데, 뒤로 갈수록 앞에 학습한 것들을 잘 잊어버리는 "Long Term Dependency" 문제가 존재합니다. 그래서 LSTM과 GRU가 나왔습니다. 다음과 같이 살펴봅시다. Long Short-Term Memory (LSTM) Capable of learning long-term dependencies. LSTM networks introduce a new structure called a memory cell. An LSTM can learn to bridge time intervals in excess of 1000 steps. Gate units that learn to..