[Gradient Descent] part 2 - 3
๐ฏ Keyword ๐ฏ
- Gradient Descent
Gradient Descent๋ iterativeํ๊ฒ ์ต์ parameter θ ๋ฅผ ์ฐพ์๊ฐ๋ ๊ณผ์ ์ ๋๋ค.
Gradient
ํจ์๋ฅผ ๋ฏธ๋ถํ์ฌ ์ป๋ term์ผ๋ก ํด๋น ํจ์์ ๋ณํํ๋ ์ ๋๋ฅผ ํํํ๋ ๊ฐ
์ฐ๋ฆฌ๊ฐ ์ต์๋ก ํ๊ณ ์ถ์ loss function๊ณผ error surface๊ฐ ์๋ค๊ณ ํฉ์๋ค.
1. ์ด๋ค ์์์ point์์ ์ด error surface์์ ์ต์์ธ point๋ฅผ ์ฐพ์๊ฐ๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค.
2. ํด๋น error surface์์ ์ต์์ธ point์ ํน์ง์ gradient๊ฐ 0์ธ ๊ฒ์ ๋๋ค.
3. Gradient Descent์์๋ error surface์์ Gradient๊ฐ 0์ธ ์ง์ ๊น์ง θ๋ฅผ ๋ฐ๊ฟ ๋๊ฐ๋ฉฐ ํ์ํฉ๋๋ค.
4. ํด๋น ํ์ ๊ณผ์ ์ ๊ธฐ์ธ๊ธฐ๊ฐ ๊ฐ์ฅ ํฐ ๋ฐฉํฅ์ผ๋ก ํ ๊ฑธ์ ํ ๊ฑธ์ ๋๋ ๊ฒ์ ๋๋ค.
5. Gradient Descent์์๋ ํจ์์ ๋ณํ๋๊ฐ ๊ฐ์ฅ ํฐ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ ๊ฒ์ ๋๋ค.
์ ๊ทธ๋ฆผ์์
α๋ parameter๋ฅผ update ํ ๋, ์๋๋ฅผ ์กฐ์ ํ ๋ ์ฌ์ฉ ๋ฉ๋๋ค.
-> ๋๋ฌด ์์ผ๋ฉด ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆด ๊ฒ์ ๋๋ค.-> ๋๋ฌด ํฌ๋ฉด gradient๊ฐ 0์ธ ๊ณณ์ ๋์น๊ธฐ๊ฐ ์ฌ์์ ์๋ ดํ๊ธฐ๊ฐ ์ด๋ ค์์ง๋๋ค.
- ์ด๋ค ๋ฐฉํฅ์ผ๋ก ?
- Steepest gradient descent with a greedy method
- ํ์ฌ ์ง์ ์์ ๊ฐ์ฅ ๋ณํ๋๊ฐ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๋ชจ์์ผ๋ก ์ ๋ฐ์ดํธ ํด๋๊ฐ๋๋ค.
- Steepest gradient descent with a greedy method
- ์ผ๋ง๋ ๋ง์ด ?
- Step size
Greedy Algorithm์ ํน์ง
Gradient Descent Algorithm ์ ๊ฒฝ์ฐ์ ๋ฐ๋ผ Local optimum๋ง์ ๋ฌ์ฑํ๊ธฐ ์ฝ๋ค.
- Global optimum
- Global optimum์ ์ ์ฒด error surface์์ ๊ฐ์ฅ ์ต์์ธ ๊ฐ์ ๊ฐ๋ ์ง์ ์ ๋๋ค.
- Local optimum
- Local optimum์ ์ง์ญ์์๋ ์ต์๊ฐ ๋ ์ ์์ง๋ง ์ ์ฒด์์ญ์ ๋๊ณ ๋ณด์์ ๋๋ ์ต์๊ฐ ์๋ ์ ์๋ ์ง์ ์ ๋๋ค.
์๋ก ๋ค๋ฅธ ์ง์ ์์ ์์์ ํ๋ ๊ฒฝ์ฐ, ์ด๋ ํ๋๋ Global optimum์, ์ด๋ ํ๋๋ local optimum์ ๊ฐ์ง ์ ์์ต๋๋ค.
๋ด๊ฐ ์ด๋ํ ๋ฐฉํฅ์ด ์ ์ฒด์์ ์ต์ ํ๋ ํฌ์ธํธ๊ฐ ์๋๊ฒ ๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- Gradient Descent ์ํ ๊ณผ์
- ์ต์ ํ ํ๊ณ ์ ํ๋ loss function ํน์ objective function์ ์ธ์๋๋ค.
- α์ ๊ฐ์ algorithm ์ํ์ ํ์ํ parameter๋ฅผ ์ค์ ํฉ๋๋ค.
(์ด๋ ๊ฒ ์ฌ์ ์ ์ค์ ํ parameter๋ฅผ hyper parameter๋ผ๊ณ ํฉ๋๋ค. ํญ์ ์์ ๊ฐ์ ๊ฐ์ต๋๋ค.)
Gradient descent๋ฅผ ํตํด ํ์ต์ํค๊ณ ์ ํ๋ parameter θ ๋ learnable parameter๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. - Gradient descent algorithm์ ์์์ initial parameter θ0, θ1(initial point)์ ์ค์ ํ๋ ๊ฒ์์๋ถํฐ ์์ํฉ๋๋ค.
- ์ฐ๋ฆฌ์ ๋ชฉ์ ํจ์๊ฐ ์๋ ดํ ๋๊น์ง parameter๋ฅผ ๊ณ์ ๋ฐ๊ฟ๋๊ฐ๋ ๊ณผ์ ์ ๋ฐ๋ณตํด ๋๊ฐ๋๋ค.
- ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด θ0, θ1, .. ์ ๋ํด ๋ฏธ๋ถ์ ํ์ฌ ์์ ๊ตฌํ ์ ์์ต๋๋ค.
θ0, θ1์ ๋ํด ๊ฐ๊ฐ ๋ฏธ๋ถํ ๊ฒ์ ๋๋ค.
์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด convergenceํ ๋๊น์ง ๋ฐ๋ณตํด ๋๊ฐ๋๋ค.
- ์ต์ ํ ํ๊ณ ์ ํ๋ loss function ํน์ objective function์ ์ธ์๋๋ค.
ํ๋์ฉ ์์ธํ ๋ณด๊ฒ ์ต๋๋ค.
θ0
1. error term์ผ๋ก, sample๋ค์ ๋ชจ๋ error๋ฅผ ์ธก์ ํ ๋ค์์ ๋ํฉ๋๋ค.
2. ๊ทธ ๋ค์, hyper parameter α๋ฅผ ๊ณฑํ์ฌ update๋ฅผ ์งํํด ๋๊ฐ๋๋ค.
θ1
1. θ1์ ๊ฒฝ์ฐ์๋ error term ์ด์ธ์๋ sample์ ๊ณฑํ์ฌ ๋ชจ๋ ๋ํ๋ค์ update๋ฅผ ์งํํด ๋๊ฐ๊ฒ ๋ฉ๋๋ค.
Gradient Descent์ Normal Equation๊ฐ์ ์ฐจ์ด
- Gradient Descent
- ๋ฐ๋ณต์ ์ธ ๊ณผ์ ์ํ์ ํตํด ํด๋ฅผ ์ป์ด ๋๊ฐ๋๋ค.
- ์ค๋ น N์ด ๊ต์ฅํ ํฌ๋๋ผ๋ ๋ฐ๋ณต์ ์ผ๋ก ํด๋ฅผ ๊ตฌํ ์ ์์ต๋๋ค.
- Normal Equation
- one-step์ผ๋ก ํด๋ฅผ ๊ตฌํฉ๋๋ค.
- ๊ทธ๋ฌ๋ matrix ๊ณฑ์ด ์ด๋ฃจ์ด์ ธ ์ฐ๋ฆฌ์ sample size๊ฐ ๊ต์ฅํ ๋์ด๋๊ฒ ๋๋ ๊ฒฝ์ฐ, inverse matrix ๋ฑ์ ๊ตฌํ๊ธฐ๊ฐ ๊ต์ฅํ ์ด๋ ค์์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค.
- one-step์ผ๋ก ํด๋ฅผ ๊ตฌํฉ๋๋ค.
๊ทธ๋ฌ๋ ์์ง ๋จ์์๋ ๋ถํธํจ์ ํด๊ฒฐํ๊ธฐ ์ํด stochastic gradient descent, mini batch algorithm์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ํตํด Gradient Descent algorithm์ด Local Minina์ ๋น ์ง์ง ์๋๋ก ํฉ๋๋ค.
'Artificial Intelligence' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Parameter] part 3 - 2 (0) | 2023.01.16 |
---|---|
[Gradient Descent] part 3 - 1 (0) | 2023.01.16 |
[Linear Regression] part 2 - 2 (0) | 2023.01.14 |
[Linear Regression] part 2 - 1 (0) | 2023.01.14 |
[Foundation of Supervised Learning] part 1 - 2 (0) | 2023.01.12 |