[Seq2Seq with Attention for Natural Language Understanding and Generation] Part 4

Artificial Intelligence

[Seq2Seq with Attention for Natural Language Understanding and Generation] Part 4 - 1

Han Jang 2023. 1. 25. 01:22

🧑🏻‍💻용어 정리

Seq2Seq
Recurrent Neural Networks (RNNs)
Unrolled Illustration

Recurrent Neural Networks (RNNs)

CNN 과 더불어 특정한 형태의 Neural Network 입니다.
Sequence data에 특화된 형태를 띄게 됩니다.
동일한 function을 반복적으로 호출한다는 특징을 가지고 있습니다.
이렇게 변화하는 입력이 순차적으로 들어온다고 하면, 특정 time step t에서의 입력 신호를 Xt라고 하면, RNN function 혹은 nerual network layer는 현재 time step에서의 입력 신호와 그 이전의 time step에서의 동일한 RNN function이 계산했던 Hidden state vector인 h t - 1을 입력으로 받아서, 현재 time step의 RNN module의 입력으로 받아서 output인 ht혹은 current hidden state vector를 만들어주게 됩니다.
매 time step 마다, 동일한 function, 즉, 동일한 parameter set을 가지는 Layer가 반복적으로 수행됩니다.
또, prediction이 필요한 time step의 경우에는 RNN의 ht를 다시 입력으로 output layer에 전달해 줌으로써 최종 예측 결과를 만들어주게 됩니다.

출처 : https://www.yuthon.com/post/tutorials/notes-for-cs231n-rnn/

RNN의 Unrolled Illustration 과정을 살펴봅시다.
여러 time step에 걸쳐서 펼쳐놓은 이런 Unrolled 버전의 그림이 아래와 같이 존재합니다.

출처 : https://www.researchgate.net/figure/An-unrolled-recurrent-neural-network-Example-borrowed-from-Olah-2015-13_fig1_304470393

임의의 t에 대해서 N차원 vector를 입력으로 받아 fully-connected layer를 통과하여 output vector를 내부적인 중간 결과물로써 만들어줍니다.
RNN의 또 다른 입력인 Hidden state vector 였던 h2를 또 입력으로 받아서 h2의 입력 Vector의 dimension이 가령 2차원이라고 한다면, 이 2차원 입력 vector를 또 fully-connected layer를 통과시켜 특정 vector로 만들어주고 두 개의 vector를 이렇게 합산해서 중간 결과물을 계산해주게 됩니다.
그 중간 결과물을 RNN에서 가장 적절한 활성 함수인 tan h를 써서 최종적으로 현재 time step의 결과 vector를 만들어주게 되고, 과정에서 previous time step의 Hidden state vector의 차원과 current time step의 Hidden state vector 차원이 같아야 그 다음 time step에 이전 time step hidden state vector 자리에 들어갈 것입니다.
예측이 필요한 경우에는, RNN의 최종 Output을 입력 Vector로, 또 다른 선형 변환을 통해 최종 output vector를 만들어주게됩니다.
어떤 Multi-class classification의 Output인 경우에는 최종 Output vector에 softmax layer를 거는 형태로 Output vector를 확률 분포에 해당하는 vector로 변환하게 됩니다.
이게 regression task인 경우에는 최종 실수 값을 최종 예측 output으로 사용하게 되는 형태를 띄게 됩니다.

one-to-one

time step의 개념이 전혀 없었던, 한 번에, 하나의 Data item을 독립적으로 그때그때 받아서 예측 결과를 내어주는, time step이 1일 때만 입력이 주어지고, 바로 출력이 나오는 형태를 생각해볼 수 있습니다. 이 형태를 One-to-one 형태로 부릅니다.

-> Vanilla Neural Networks

one-to-many

입력은 sequence data가 아니라 time step이 1일 때만 입력이 주어지고, 출력 결과물은 여러 time step에 걸쳐서 순차적인 예측 결과를 생성하게 되는 이런 입력이 하나고, 출력은 여러 개로 이루어진 sequence data를 생성해 주는 그런 Task를 one-to-many 의 형태로 부릅니다.

-> Image Captioning (image -> sequence of words)

- RNN module은 출력 결과물로서 이미지를 설명하는 각각의 워드들을 특정 Sequence로 예측해 주는 형태를 띄게 됩니다.

이 RNN task에서 다음 time step의 입력으로는 0으로 채워진 vector를 줍니다.

그리고 각 time step에서 어떤 워드들의 Sequence 로서의 문장을 생성해줄 수 있습니다.

many-to-one

여러 입력에 대해, 여러 time step에 대해 하나의 time step에 대한 출력을 제공합니다.

-> Sentiment Classification (Sequence of words -> sentiment)

문장을 읽고 값이 "positive" or "negative"인지를 판별해줌.

many-to-many

여러 입력에 대해 여러 출력의 결과가 나와 여러 time step을 필요로 함.

-> Machine Translation (Sequence of words -> sequence of words)
영어 -> 한글 번역

many-to-many

위의 변종으로 바로바로 예측 결과를 생성해야하는 경우에 사용.

-> Video Classification on Frame Level

delay를 허용하지 않고, 매 time step 마다 실행됩니다.

저작자표시

'Artificial Intelligence' 카테고리의 다른 글

[Transformer] Part 5 (1)	2023.01.25
[Seq2Seq with Attention for Natural Language Understanding and Generation] Part 4 - 2 (0)	2023.01.25
[Ensemble Learning] part 6 - 2 (0)	2023.01.20
[Ensemble Learning] part 6 - 1 (0)	2023.01.20
[Advanced Classification] part 5 - 3 (0)	2023.01.19

현재글[Seq2Seq with Attention for Natural Language Understanding and Generation] Part 4 - 1

Han's Tech LAB

이 블로그에서는 CS, 통계, 수학의 기초부터 AI, Computer Vision, NLP, LLM까지 다양한 주제를 다룹니다. 저의 글이 도움이 되었으면 좋겠습니다!

RNN, Filter, ComputerVision, GPT, til, 독서, 딥러닝, 독후감, nn, decoding, Encoder, 자연어처리, 머신러닝, CNN, 컴퓨터비젼, ChatGPT, dnn, vision, 백준, LSTM,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Han's Tech LAB