[Deep Learning] Recurrent Neural Network (3)

Artificial Intelligence/Deep Learning

[Deep Learning] Recurrent Neural Network (3) - Attention

Han Jang 2023. 5. 19. 00:08

🧑🏻‍💻용어 정리
Neural Networks
Recurrent Neural Network
LSTM
Attention

지난 시간에 RNN에 이어 LSTM까지 살펴보았습니다.

이번에는 NLP를 현재 엄청나게 핫하게 해준 Attention에 대해 살펴보겠습니다.

Attention Mechanism

이 Attention 개념을 통해서

우선, 우리가 주목하지 않았던 것들에 대해서 주목하기 시작한다는 것입니다.

이것은 결국 잃어버렸던 것에 대해서 주목을 하겠다는 것입니다.

이것은 Long-term Dependency에 대한 문제로 돌아옵니다.

CNN에서의 depth처럼 RNN에서의 Sequence가 길어졌을 때 발생하는 문제는 비슷합니다.

이 문제를 해결하는 Algorithm이 필요합니다.

이를테면,

Decoder의 한 출력을 내보내는 데 있어, 이전 단어의 출력과 hidden state의 연산으로 이루어지는데,

여기서 Encoder가 너무나 멀어지니 Long-term Dependency가 발생하는 것입니다.

여기서 Encoder 시점에서의 정보를 다시 출력 하나하나에 포함시켜준다면 이것들이 예측하는데 도움을 주지 않을까하는 아이디어가 나오게 됩니다.

결국, 멀리 떨어져있는 Encoder의 정보 중 중요한 정보는 Decoder에서도 반영해주자는 것입니다.

Encoder의 hidden vector 중 decoder의 hidden vector와 유사한 게 있다면, 그 encoder의 hidden vector는 예측에 중요한 key가 될 수 있습니다.

다음과 같이 독일어를 영어로 번역하는 예시를 봅시다.

위와 같이 beer를 예측하는 데 필요한 hidden state에 대해서, 이 것은 정보를 조합하여 beer라는 값을 잘 나타내는 vector가 될 것입니다.

그리고, 위와 같이 bier에서의 hidden vector와 beer에서의 encoding된 hidden vector가 있다면, 이 정보도 함께 이용하자는 것입니다.

그렇다면 조금 더 decoding 시 도움이 되지 않을까 하는 것입니다.

단어가 유사하게 vector로 표현된 것을 찾아내자는 의미로 보시면 되겠습니다.

조금 더 자세히 봅시다.

위와 같이 attention이 있는 예측과 없는 예측으로 나누어 볼 수 있습니다.

attention이 없다면, 전 시점의 hidden state와 전 시점의 출력값이랑 weight 연산 후 bias를 포함시켜서 현재 시점의 state가 되도록 합니다.

attention이 포함되었을 때, 추가로 c t를 추가해줍니다.

c t라는 context vector를 만들어 같이 넣어주는 것입니다.

여기서 c t는 쉽게 구해낼 수 있습니다.

일단, 전 시점의 decoder에서의 hidden state s t-1과 encoder의 hidden state들 간의 유사도를 계산합니다.

그것이 바로 좌측에 나와있는 수식입니다.

s t-1 은 Decoder에, h j는 Encoder에 있는 것입니다.

그리고 여기에 runnable parameter 3개 V, W, U를 둡니다.

여기서 유사도 어떻게 되는진 아직 모르지만,

parameter 3개와 activation을 한다면, 우리가 학습을 잘 시킨다면 예측을 잘 시킬 수 있지 않을까 보는 것입니다.

여기서, j라는 encoder의 index, 위 그림으로보면 4개, t는 decoder의 index로 우측 부분 중 하나의 값에 해당합니다.

이 유사도에 대해 계산한 것을 그냥 내보내면 안 되겠죠?

softmax function으로 normalization을 합니다.

결국 각 encoder의 hidden node에 대한 유사도를 0 ~ 1 사이의 값으로 scaling하여 확률값처럼 바꿔줍니다.

결국 a에 대한 nornalization된 값은 따지고보면 가중치가 됩니다.

그래서 어떤 것이 제일 유사한지 가중치로서 알 수 있게 됩니다.

그래서 위와 같이 a i의 i index는 decoder의 i index입니다.

그래서 s i라는 hidden state의 attention을 encoding 시켜주기 위한 가중치가 들어가게 됩니다.

그리고 우측과 같이 context vector라는 것을 만들어 이것들을 다 가중합을 합니다.

encoder에서의 hidden state 4개에 대해서 앞에서 구한 가중치에 대해서 선형조합을 하여 연산합니다.

이 가중치는 결국 유사도에 기반한 값이며, 이 값은 0 ~ 1 사이의 값으로 scaling하여 합쳐서 1이 되게 만들었습니다.

그래서 이렇게 되면, 가장 관련이 깊은 값이 context vector에 가장 많이 영향을 미칠 것입니다.

그리고 가장 유사하지 않은 것은 0에 가까운 가중치를 갖게 되어 사실상 context vector에 그다지 영향을 미치지 않을 것입니다.

이 context vector를 전체 Decoder에 풀어서 concatenate하면, context matrix가 나오게 됩니다.

좌측의 식과 같이 Attention을 이용하여 prediction을 해주는 식이 나오게 됩니다.

위 계산으로부터 나온 C_t를 넣어주자는 것입니다.

또한 runnable parameter가 존재하며,

그리고 위 구조가 LSTM style로 구성되면 runnable parameter가 훨씬 많아지게 됩니다.

위와 같이 Encoder, Decoder 구조를 볼 수 있습니다.

Decoder의 각 값에 대해서 유사도가 달라지므로 weight 값이 달라지게 됩니다.

결국에는 여러 encoder의 입력 중 어떤 것이 prediction에 가장 큰 영향력을 미치는지,

어떠한 인자를 가지고 예측을 해내는지 알 수 있습니다.

인공지능 모델은 원래 설명이 불가능 했지만,

Attention을 도입하면 설명이 가능해집니다.

결국 prediction을 정확히 하게 위해 Attention을 도입했지만, 하다 보니 Attention이 설명에 굉장히 큰 도움이 된다라는 것입니다.

그리고 위와 같이 유사도를 구현할 수 있는 score function들입니다.

저작자표시

'Artificial Intelligence > Deep Learning' 카테고리의 다른 글

[Deep Learning] Autoencoders (0)	2023.05.23
[Deep Learning] Recurrent Neural Network (4) - Transformer (0)	2023.05.20
[Deep Learning] Recurrent Neural Network (2) - LSTM (0)	2023.05.17
[Deep Learning] Recurrent Neural Network (1) (1)	2023.05.16
[Deep Learning] Convolutional Neural Network (2) (0)	2023.05.03

현재글[Deep Learning] Recurrent Neural Network (3) - Attention

Han's Tech LAB 이 블로그에서는 CS, 통계, 수학의 기초부터 AI, Computer Vision, NLP, LLM까지 다양한 주제를 다룹니다. 저의 글이 도움이 되었으면 좋겠습니다!

Han's Tech LAB

이 블로그에서는 CS, 통계, 수학의 기초부터 AI, Computer Vision, NLP, LLM까지 다양한 주제를 다룹니다. 저의 글이 도움이 되었으면 좋겠습니다!

til, 딥러닝, 머신러닝, decoding, nn, 독후감, Encoder, GPT, LSTM, ChatGPT, 컴퓨터비젼, 백준, CNN, vision, 독서, dnn, 자연어처리, ComputerVision, Filter, RNN,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Han's Tech LAB