[Gradient Descent] part 2 - 3

2023. 1. 14. 15:21

๐ŸŽฏ Keyword ๐ŸŽฏ

- Gradient Descent

Gradient Descent๋Š” iterativeํ•˜๊ฒŒ ์ตœ์  parameter θ ๋ฅผ ์ฐพ์•„๊ฐ€๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

 

Gradient

ํ•จ์ˆ˜๋ฅผ ๋ฏธ๋ถ„ํ•˜์—ฌ ์–ป๋Š” term์œผ๋กœ ํ•ด๋‹น ํ•จ์ˆ˜์˜ ๋ณ€ํ™”ํ•˜๋Š” ์ •๋„๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๊ฐ’

 

์šฐ๋ฆฌ๊ฐ€ ์ตœ์†Œ๋กœ ํ•˜๊ณ  ์‹ถ์€ loss function๊ณผ error surface๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•ฉ์‹œ๋‹ค.

 

1. ์–ด๋–ค ์ž„์˜์˜ point์—์„œ ์ด error surface์—์„œ ์ตœ์†Œ์ธ point๋ฅผ ์ฐพ์•„๊ฐ€๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ž…๋‹ˆ๋‹ค.

 

2. ํ•ด๋‹น error surface์—์„œ ์ตœ์†Œ์ธ point์˜ ํŠน์ง•์€ gradient๊ฐ€ 0์ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

3. Gradient Descent์—์„œ๋Š” error surface์—์„œ Gradient๊ฐ€ 0์ธ ์ง€์ ๊นŒ์ง€ θ๋ฅผ ๋ฐ”๊ฟ” ๋‚˜๊ฐ€๋ฉฐ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค.

 

4. ํ•ด๋‹น ํƒ์ƒ‰ ๊ณผ์ •์€ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๊ฐ€์žฅ ํฐ ๋ฐฉํ–ฅ์œผ๋กœ ํ•œ ๊ฑธ์Œ ํ•œ ๊ฑธ์Œ ๋”›๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

5. Gradient Descent์—์„œ๋Š” ํ•จ์ˆ˜์˜ ๋ณ€ํ™”๋„๊ฐ€ ๊ฐ€์žฅ ํฐ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

Gradient Descent Equation

 

์œ„ ๊ทธ๋ฆผ์—์„œ

α๋Š” parameter๋ฅผ update ํ•  ๋•Œ, ์†๋„๋ฅผ ์กฐ์ ˆํ•  ๋•Œ ์‚ฌ์šฉ ๋ฉ๋‹ˆ๋‹ค.

 

-> ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆด ๊ฒƒ์ž…๋‹ˆ๋‹ค.-> ๋„ˆ๋ฌด ํฌ๋ฉด gradient๊ฐ€ 0์ธ ๊ณณ์„ ๋†“์น˜๊ธฐ๊ฐ€ ์‰ฌ์›Œ์„œ ์ˆ˜๋ ดํ•˜๊ธฐ๊ฐ€ ์–ด๋ ค์›Œ์ง‘๋‹ˆ๋‹ค.

 

  • ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ ?
    • Steepest gradient descent with a greedy method
      • ํ˜„์žฌ ์ง€์ ์—์„œ ๊ฐ€์žฅ ๋ณ€ํ™”๋„๊ฐ€ ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅธ ๋ชจ์–‘์œผ๋กœ ์—…๋ฐ์ดํŠธ ํ•ด๋‚˜๊ฐ‘๋‹ˆ๋‹ค.
  • ์–ผ๋งˆ๋‚˜ ๋งŽ์ด ?
    • Step size

 

Greedy Algorithm์˜ ํŠน์ง•

Gradient Descent Algorithm ์€ ๊ฒฝ์šฐ์— ๋”ฐ๋ผ Local optimum๋งŒ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์‰ฝ๋‹ค.

 

 

  • Global optimum
    • Global optimum์€ ์ „์ฒด error surface์—์„œ ๊ฐ€์žฅ ์ตœ์†Œ์ธ ๊ฐ’์„ ๊ฐ–๋Š” ์ง€์ ์ž…๋‹ˆ๋‹ค.
  • Local optimum
    • Local optimum์€ ์ง€์—ญ์—์„œ๋Š” ์ตœ์†Œ๊ฐ€ ๋  ์ˆ˜ ์žˆ์ง€๋งŒ ์ „์ฒด์˜์—ญ์„ ๋†“๊ณ  ๋ณด์•˜์„ ๋•Œ๋Š” ์ตœ์†Œ๊ฐ€ ์•„๋‹ ์ˆ˜ ์žˆ๋Š” ์ง€์ ์ž…๋‹ˆ๋‹ค.

 

์„œ๋กœ ๋‹ค๋ฅธ ์ง€์ ์—์„œ ์‹œ์ž‘์„ ํ•˜๋Š” ๊ฒฝ์šฐ, ์–ด๋Š ํ•˜๋‚˜๋Š” Global optimum์„, ์–ด๋Š ํ•˜๋‚˜๋Š” local optimum์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋‚ด๊ฐ€ ์ด๋™ํ•œ ๋ฐฉํ–ฅ์ด ์ „์ฒด์—์„œ ์ตœ์ ํ™”๋œ ํฌ์ธํŠธ๊ฐ€ ์•„๋‹ˆ๊ฒŒ ๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

  • Gradient Descent ์ˆ˜ํ–‰ ๊ณผ์ •
    1. ์ตœ์ ํ™” ํ•˜๊ณ ์ž ํ•˜๋Š” loss function ํ˜น์€ objective function์„ ์„ธ์›๋‹ˆ๋‹ค.

    2. α์™€ ๊ฐ™์€ algorithm ์ˆ˜ํ–‰์— ํ•„์š”ํ•œ parameter๋ฅผ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
      (์ด๋ ‡๊ฒŒ ์‚ฌ์ „์— ์„ค์ •ํ•œ parameter๋ฅผ hyper parameter๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํ•ญ์ƒ ์–‘์˜ ๊ฐ’์„ ๊ฐ–์Šต๋‹ˆ๋‹ค.)
      Gradient descent๋ฅผ ํ†ตํ•ด ํ•™์Šต์‹œํ‚ค๊ณ ์ž ํ•˜๋Š” parameter θ ๋Š” learnable parameter๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

    3. Gradient descent algorithm์˜ ์‹œ์ž‘์€ initial parameter θ0, θ1(initial point)์„ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์—์„œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.

    4. ์šฐ๋ฆฌ์˜ ๋ชฉ์  ํ•จ์ˆ˜๊ฐ€ ์ˆ˜๋ ดํ•  ๋•Œ๊นŒ์ง€ parameter๋ฅผ ๊ณ„์† ๋ฐ”๊ฟ”๋‚˜๊ฐ€๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.
    5. ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด θ0, θ1, .. ์— ๋Œ€ํ•ด ๋ฏธ๋ถ„์„ ํ•˜์—ฌ ์‹์„ ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      θ0, θ1์— ๋Œ€ํ•ด ๊ฐ๊ฐ ๋ฏธ๋ถ„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
      ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด convergenceํ•  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.

θ0,  θ1 ๋ฏธ๋ถ„

ํ•˜๋‚˜์”ฉ ์ž์„ธํžˆ ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

θ0

 

1. error term์œผ๋กœ, sample๋“ค์˜ ๋ชจ๋“  error๋ฅผ ์ธก์ •ํ•œ ๋‹ค์Œ์— ๋”ํ•ฉ๋‹ˆ๋‹ค.

2. ๊ทธ ๋‹ค์Œ, hyper parameter α๋ฅผ ๊ณฑํ•˜์—ฌ update๋ฅผ ์ง„ํ–‰ํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.

 

 

θ1

 

1. θ1์˜ ๊ฒฝ์šฐ์—๋Š” error term ์ด์™ธ์—๋„ sample์„ ๊ณฑํ•˜์—ฌ ๋ชจ๋‘ ๋”ํ•œ๋‹ค์Œ update๋ฅผ ์ง„ํ–‰ํ•ด ๋‚˜๊ฐ€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

 

 

Gradient Descent์™€ Normal Equation๊ฐ„์˜ ์ฐจ์ด

 

  • Gradient Descent
    • ๋ฐ˜๋ณต์ ์ธ ๊ณผ์ • ์ˆ˜ํ–‰์„ ํ†ตํ•ด ํ•ด๋ฅผ ์–ป์–ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.
    • ์„ค๋ น N์ด ๊ต‰์žฅํžˆ ํฌ๋”๋ผ๋„ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ•ด๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Normal Equation
    • one-step์œผ๋กœ ํ•ด๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
      • ๊ทธ๋Ÿฌ๋‚˜ matrix ๊ณฑ์ด ์ด๋ฃจ์–ด์ ธ ์šฐ๋ฆฌ์˜ sample size๊ฐ€ ๊ต‰์žฅํžˆ ๋Š˜์–ด๋‚˜๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ, inverse matrix ๋“ฑ์„ ๊ตฌํ•˜๊ธฐ๊ฐ€ ๊ต‰์žฅํžˆ ์–ด๋ ค์›Œ์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

๊ทธ๋Ÿฌ๋‚˜ ์•„์ง ๋‚จ์•„์žˆ๋Š” ๋ถˆํŽธํ•จ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด stochastic gradient descent, mini batch algorithm์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ํ†ตํ•ด Gradient Descent algorithm์ด Local Minina์— ๋น ์ง€์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

'Artificial Intelligence' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Parameter] part 3 - 2  (0) 2023.01.16
[Gradient Descent] part 3 - 1  (0) 2023.01.16
[Linear Regression] part 2 - 2  (0) 2023.01.14
[Linear Regression] part 2 - 1  (0) 2023.01.14
[Foundation of Supervised Learning] part 1 - 2  (0) 2023.01.12

BELATED ARTICLES

more