Attention 4

[NLP] Transformer

🧑🏻‍💻용어 정리 Neural Networks RNN LSTM Attention Transformer Generator discriminator self-attention layer normalization multi-head attention positional encoding https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect..

[Deep Learning] Recurrent Neural Network (2) - LSTM

🧑🏻‍💻용어 정리 Neural Networks Feed-forward Backpropagation Convolutional Neural Network Recurrent Neural Network LSTM Attention Cell state forget gate input gate output gate 이전 시간까지 RNN의 여러 가지 종류에 대해 알아보았습니다. 조금 더 살펴봅시다. RNN의 단점 RNN을 쭉 연결시켜 놓고 보니, 특히 Encoder, Decoder 부분에서 확연히 들어나는 이 특징은, 너무 입력되는 문장이 길다보니, Long-Term Dependency 문제가 발생합니다. input signal의 정보를 h t에 과거에서부터 계속 모아옵니다. 그런데 과거의 더 이전 시점의 무언가가 필..

[Deep Learning] Recurrent Neural Network (1)

🧑🏻‍💻용어 정리 Neural Networks Feed-forward Backpropagation Convolutional Neural Network Recurrent Neural Network Propagation unfolding fold unfolding computational graph 우리가 지금까지, 여러 가지 기술들을 MLP를 기준으로 공부해왔습니다. 그러한 것으로부터 Deep MLP부터 성공적인 구조인 CNN까지 공부를 해봤습니다. 또 다른 성공적인 구조인 RNN에 대해 공부해보겠습니다. Recurrent Neural Network 이 RNN model도 1986년에 이미 제안이 되어온 model입니다. 결국 이 RNN도 Neural Network의 specialized form입니다. ..

[NLP] Sequential Data Modeling

🧑🏻‍💻용어 정리 Neural Networks RNN LSTM Attention CNN Sequential Data Modeling Sequential Data Most of data are sequential Speech, Text, Image, ... Deep Learnings for Sequential Data Convolutional Neural Networks (CNN) Try to find local features from a sequence Recurrent Neural Networks : LSTM, GRU Try to capture the feature of the past 지금까지 입력에 대해 살펴보았죠. 그런데, 그 입력에 대해서 다 output이 존재합니다. 우리는 그 output을..