[Time-Series data] RNN ๊ธฐ๋ฐ ๋ค๋ณ๋ ์๊ณ์ด ๋ฐ์ดํฐ ํ๊ท๋ชจํ
2023. 1. 27. 16:23
๐ง๐ป๐ป์ฉ์ด ์ ๋ฆฌ
Non-Sequential vs. Sequential
Time-Series Data
- Sequential Data๋ผ๊ณ ์๊ฐํ ์ ์์ต๋๋ค.
- Non-Seuential Data๋ ์๊ฐ ์ ๋ณด๋ฅผ ํฌํจํ์ง ์๊ณ ์์ฑ๋๋ ๋ฐ์ดํฐ์
๋๋ค.
- ์์ฐจ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ ๋ฐ์ดํฐ๋ ์ฐ๋ฆฌ๊ฐ ๊ด์ธกํ๋ Data์ ๊ฐ์์ธ N๊ณผ ๋ณ์์ ๊ฐ์์ธ D๋ฅผ ๊ณฑํ ํ๋ ฌ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
- Sequential Data๋ ์๊ฐ ์ ๋ณด๋ฅผ ํฌํจํ์ฌ ์์ฐจ์ ์ผ๋ก ์์ฑ๋๋ ๋ฐ์ดํฐ์
๋๋ค.
- ์์ฐจ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ๋ N by T by D Tensor(๋๋ array)๋ก ํํ๋ฉ๋๋ค.
- ๊ณผ๊ฑฐ์ ์ ๋ณด๊ฐ ๊ณ์์ ์ผ๋ก ๋์ ํด์ ์ ๋ฌ์ด ๋๋ ๊ตฌ์กฐ์ ๋๋ค.
- x์์ hidden layer, ๊ทธ๋ฆฌ๊ณ ์ถ๋ ฅ y๋ก ๊ฐ๋ ๊ตฌ์กฐ์์ ์ด๋ฌํ ์๊ธฐ ์์ ์ ์ฐธ์กฐ๋ก ํ๋, h์์ h๋ก ์ฐ๊ฒฐ์ด ๋๋ ๊ตฌ์กฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ํ์ ๊ฒฝ๋ง์ด๋ผ๊ณ ํฉ๋๋ค.
- ์ด ์ํ ์ ๊ฒฝ๋ง์ Vanlia RNN์ด๋ผ๊ณ ํฉ๋๋ค.
- hyperbolic tangent function (tanh)๋ฅผ f๋ผ๋ ํ์ฑํจ์๋ก ๊ฐ์ ํฉ๋๋ค.
- ์ผ๋ง๋งํผ ํ๋ ธ๋์ง๋ฅผ ํ์ธ ํ, ์ญ ๋ฐฉํฅ์ผ๋ก ์ด๋ป๊ฒ ํด์ผ ๊ฐ์ฅ ํ์ฌ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์์ ์ ๋ง์ถ ์ ์๋ ๊ฒ์ธ์ง๋ฅผ ๋ณด๋ ๊ฒ์ด back propagation์ ๋ชฉ์ ์ ๋๋ค.
- chain rule์ ์ด์ฉํด์ gradient๋ฅผ ํธ๋ฏธ๋ถํ์ฌ ๊ตฌํฉ๋๋ค.
- ์ด ๊ฒฝ์ฐ, 1 - tanh^2 ํจ์์ ํน์ฑ์ผ๋ก ์ธํด gradient exploding problem์ด ๋ฐ์ํฉ๋๋ค.
- ์ด๊ฒ์ ํด๊ฒฐํ๊ธฐ ์ํด LSTM, GRU์ด ์ฐ์ ๋๋ค.
- ์๋ฐฉํฅ ์ํ์ ๊ฒฝ๋ง์ ํตํด ์ ๋ณด์ ์ ๋ ฅ์ ์๊ฐ์ ์๋ฐฉํฅ๊ณผ ์ญ๋ฐฉํฅ ๊ด์ ์์ ํจ๊ป ์ฒ๋ฆฌํฉ๋๋ค.
- Deep-Bidirectional RNN๋ ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ์ฌ๋ฌ ๊ฐ์ง hidden layer๋ฅผ ์๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ๊ทธ๋ฌ๋ RNN์ CNN๊ณผ ๋ค๋ฅด๊ฒ ์ธต์ ๊น๊ฒ ์๋ ๊ฒ์ด ์ข์ ๊ฒ๋ง์ ์๋๋๋ค. ์ผ๋ฐ์ ์ผ๋ก 2 ~ 4๊ฐ์ ์ธต์ด max๊ฐ ๋ฉ๋๋ค.
- attention ์ ์ด๋ ์์ ์ ๋ณด๊ฐ RNN์ ์ต์ข
์ถ๋ ฅ ๊ฐ์ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ์๋ ค์ค ์ ์๋ ๋งค์ปค๋์ฆ์
๋๋ค.
- Bahadanau attention
- Luong attention
'Artificial Intelligence' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Transformer] Time-Series Transformer (0) | 2023.01.27 |
---|---|
[CNN] ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ๋ค๋ณ๋ ์๊ณ์ด ๋ฐ์ดํฐ ํ๊ท๋ชจํ (0) | 2023.01.27 |
[Causality] ์ธ๊ณผ์ถ๋ก (0) | 2023.01.26 |
[Self-Supervised Learning and Large-Scale Pre-Trained Models] Part 6 (0) | 2023.01.25 |
[Transformer] Part 5 (1) | 2023.01.25 |