🧑🏻💻용어 정리 Neural Networks RNN LSTM Attention Attention을 쓰는 이유? 굉장히 긴 문장이 들어왔다고 봅시다. 100개의 hidden state가 있어서, 맨 마지막의 sentense embedding이 output 생성할 때, 모든 단어의 정보를 다 포함하고 있을까요? output을 생성할 때, 각각의 단어를 다 보면서, 현재 hidden state와 각 100개의 hidden state간의 관계를 구하며 가장 attention score가 높은 것을 선택을 합니다. 결국, encoder가 source sentence를 하나의 vector로 encoding하기 어렵습니다. 그래서 이러한 seq2seq task 에서는 길이가 길 때, 성능이 떨어지는 문제가 있습니다..