[Deep Learning] - Neural Networks

2023. 3. 26. 17:22
๐Ÿง‘๐Ÿป‍๐Ÿ’ป์šฉ์–ด ์ •๋ฆฌ

Neural Networks
Linear Separability
Optimization
Perceptron
Activation function

 

์˜ค๋Š˜์€ NN์ด ๋ฌด์—‡์ธ์ง€์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ ์ž ํ•œ๋‹ค.

 

Neural Networks (NN)

 

 

๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ.

 

์ด๊ฒƒ์€ ์‚ฌ๋žŒ์˜ ๋‡Œ๋ฅผ ํ‰๋‚ด๋‚ด์–ด ๋งŒ๋“  mathematical model์ด๋‹ค.

 

์ˆ˜ํ•™์ ์œผ๋กœ ํ‰๋‚ด๋‚ธ๋‹ค.

 

  • ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์˜จ๋‹ค.
  • ๋ฐ์ดํ„ฐ๊ฐ€ weight์™€ ํ•จ๊ป˜ ๋‹ค๋ฅธ networs๋“ค๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
  • ๋งˆ๋ƒ‘ function์˜ ๊ฐ’์ด ์ถฉ๋ถ„ํžˆ ๊ฐ•ํ•˜๋‹ค๋ฉด, node๊ฐ€ activation ๋œ๋‹ค.

 

์ด๋ฅผ ANN, Artificial Neural Networks๋ผ๊ณ ๋„ ํ•œ๋‹ค.

 

 

๋Œ€๋ถ€๋ถ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด specialํ•œ NN์˜ form์œผ๋กœ ๋ฌ˜์‚ฌ๋  ์ˆ˜ ์žˆ๋‹ค.

 

์ด๊ฒƒ์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ญ๋ชฉ๋“ค์ด ์กด์žฌํ•œ๋‹ค.

 

  • Bayesian classifier
  • support vector machines
  • decision tree
  • etc..

 

 

Deep learning์€ NN์— ํฌํ•จ๋˜์–ด ์žˆ๋‹ค.

 

 

 

 

Linear Separability

 

์—ฌ๊ธฐ์—๋Š” Classification problem์ด ์กด์žฌํ•œ๋‹ค.

 

์ฆ‰,

์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค.

 

์–ด๋–ค ํ•จ์ˆ˜ g(x)์— ๋Œ€ํ•ด์—ฌ ๋‘ ๊ฐ€์ง€๋กœ ๋ถ„๋ฆฌํ•œ๋‹ค.

 

์—ฌ๊ธฐ์„œ g(x) = 0 ์ด ๋˜๋Š” ๊ฒƒ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ด๋ฆ„ ๋ถ™์ธ๋‹ค.

 

  • Decision boundary
  • Decision Surface
  • Decision hyperplane
  • Class boundary
  • ...

 

์œ„๋Š” original space๋ฅผ ๋‘ ๊ฐ€์ง€ subspace๋กœ ๋ถ„๋ฆฌํ•˜๋Š” linear function์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Generalize to multivariate proble

 

์ด์™€ ๊ฐ™์ด ์•ž์—์„œ ๋ดค๋˜ g(x) ํ•จ์ˆ˜๋ฅผ ์ผ๋ฐ˜ํ™” ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

 

์ด์— ๋Œ€ํ•œ ์šฉ์–ด๋„ ์œ„์™€ ๊ฐ™์ด ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

 

ํ•˜๋‚˜ ํ•˜๋‚˜์˜ Neuron ๋“ค์„ unit or node๋ผ๊ณ ๋„ ๋ถ€๋ฅธ๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ์ด๊ฒƒ๋“ค์—๋Š” input variables๊ฐ€ ๋“ค์–ด๊ฐ„๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ์ด๊ฒƒ๋“ค์— Weight๊ฐ€ ๊ณฑํ•ด์ง„๋‹ค. ์ด๊ฒƒ๋“ค์„ ๋ชจ๋‘ ๋”ํ•œ ๋’ค Bias ํ•ญ๊นŒ์ง€ ๋”ํ•˜๋ฉด Weighted Summation์ด ๋งŒ๋“ค์–ด์ง„๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  !!!

 

 

์ด๊ฒƒ์ด ๋์ด ์•„๋‹ˆ๋‹ค !!!!

 

์—ฌ๊ธฐ์— Activation function์„ ํ†ต๊ณผ์‹œํ‚จ ํ›„ ๋‚˜์˜ค๋Š” ๊ฒƒ์ด output์ด ๋œ๋‹ค.

 

์ฆ‰ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฐ’์€ Weighted Summation์ด ์•„๋‹ˆ๋ผ ๊ทธ ๊ฐ’์— Activation function์„ ํ†ต๊ณผ์‹œํ‚จ Output ๊ฐ’์ด๋‹ค.

 

 

 

 

 

Optimization

 

 

์•„๊นŒ Classification problem์—์„œ ๋ณธ ๊ทธ๋ฆผ์„ ์œ„ ์‹์— ๋Œ€ํ•˜์—ฌ ์ ์šฉํ•œ๋‹ค.

 

์œ„ g(x) = 0 ์ผ ๋•Œ์˜ ๊ฐ’์ด ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๊ณ ์žํ•˜๋Š”, ์šฐ๋ฆฌ๊ฐ€ ํ•™์Šต์„ ํ†ตํ•ด ์–ป๊ณ ์žํ•˜๋Š” ํ•™์Šต ๋ชฉํ‘œ๊ฐ€ ๋œ๋‹ค.

 

 

 

 

 

์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณด๋ฉด, ์šฐ๋ฆฌ๋Š” g(x)์˜ ๊ฐ’์ด ํ•™์Šต ๋ชฉํ‘œ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ๊ฐ’๋ณด๋‹ค ํฐ ๊ฐ’์„ ๋™๊ทธ๋ผ๋ฏธ, ์ž‘์€ ๊ฐ’์„ ๋„ค๋ชจ๋กœ Classification ํ•œ ๊ฒƒ์ด๋‹ค.

 

์—ฌ๊ธฐ์„œ ๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋™๊ทธ๋ผ๋ฏธ์™€ ๋„ค๋ชจ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด์„œ ์šฐ๋ฆฌ๋Š” hyperplane์„ ํ•™์Šต์‹œ์ผฐ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  g(x)์˜ ๊ฐ’์ด 0๋ณด๋‹ค ํฐ ๊ฒฝ์šฐ์™€ ์ž‘์€ ๊ฒฝ์šฐ๋กœ ๋‚˜๋‰˜๋ฏ€๋กœ, 0๋ณด๋‹ค ์ž‘์€ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด์„œ๋Š” ๋ฐ์ดํ„ฐ๋“ค์„ x -> -x๋กœ ์น˜ํ™˜ํ•œ๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ๋‚˜์„œ 0๋ณด๋‹ค ํฐ ๊ฒฝ์šฐ์— ๋Œ€ํ•œ ์‹์œผ๋กœ ๋ฐ”๊พธ์–ด ๊ณ„์‚ฐ์„ ๋” ์‰ฝ๊ฒŒ ๋งŒ๋“ ๋‹ค.

 

 

๊ทธ๋ฆฌ๊ณ  ์—ฌ๊ธฐ์„œ ๋งŒ์ผ,

 

์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์˜จ๋‹ค๋ฉด,

 

g(x) > 0 ๊ฐ’์ธ๋ฐ, ํ˜„์žฌ ํ•™์Šต๋œ ๋ฐ์ดํ„ฐ๋กœ ๊ณ„์‚ฐํ–ˆ์„ ๋•Œ 0๋ณด๋‹ค ์ž‘์€ ์˜์—ญ์œผ๋กœ ๊ฐ„๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” ๋‹ค์‹œ hyperplane์„ update ์‹œ์ผœ์ค„ ํ•„์š”์„ฑ์ด ์žˆ๋‹ค,

 

์ด๋Ÿด ๋•Œ ์šฐ๋ฆฌ๋Š”

 

Gradient Descent

 

๋ฐฉ๋ฒ•์„ ์ด์šฉํ•œ๋‹ค.

 

 

์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด์„œ 

 

 

 

 

์œ„์™€ ๊ฐ™์€ ์ˆ˜์‹์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด input์ธ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด์„œ weight๋ฅผ updateํ•œ๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ๋‹ค์‹œ ํ•™์Šต๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

 

 

 

  • ์ด๊ฒƒ์€ Weight์™€ misclassified data๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
  • ์—ฌ๊ธฐ์„œ g(x)๋Š” misclassified data๋กœ ๋ฎ์ธ๋‹ค.
  • misclassified data๋Š” ์˜๋ฌด์ด๋‹ค.
  • ๋งŒ์•ฝ data๊ฐ€ ์•„์ฃผ ํฌ๊ฒŒ misclassified ๋˜์–ด ์žˆ๋‹ค๋ฉด gradient ๋Š” ์ปค์ง„๋‹ค.

 

 

์šฐ๋ฆฌ๋Š” ์œ„์—์„œ ๋ณธ ์ด๊ฒƒ์„ ํ•˜๋‚˜์˜ perceptron์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

 

 

 

์ด perceptron์„ ํ†ตํ•ด์„œ ์šฐ๋ฆฌ๋Š” linear problem์„ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

 

 

 

 

 

์œ„์™€ ๊ฐ™์ด ์ธ๊ฐ„์˜ brain์„ ๋ชจ๋ฐฉํ•˜์—ฌ ๊ณ ์•ˆํ•ด๋‚ธ ์•„์ด๋””์–ด์ด๋‹ค.

 

์•ž neuron output์ด ๋‹ค์Œ neuron input์ด ๋œ๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ์ „๊ธฐ ์‹ ํ˜ธ์— ๋Œ€ํ•œ ํฌ๊ธฐ๋กœ output์„ ๋ณด๊ณ . activation function์ด ํ™œ์„ฑํ™” ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค.

 

 

๊ทธ๋ ‡๋‹ค๋ฉด, Activation function ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

 

 

 

Activation function

 

์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด output์œผ๋กœ ๋‚˜์˜จ Weighted Summation, ์ด๋Ÿฌํ•œ continuous output์„ probability of decision์˜ ํ˜•ํƒœ๋กœ ๋ฐฐ์ถœํ•œ๋‹ค.

 

 

 

์œ„์™€ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ์กด์žฌํ•œ๋‹ค.

 

๋ณธ๋ž˜ step function์˜ ํ˜•ํƒœ๋กœ ์กด์žฌํ–ˆ๋‹ค๊ณ  ๋ณธ๋‹ค.

 

 

 

์›๋ž˜ step function์˜ ํ˜•ํƒœ๋ผ๋ฉด 0๋ณด๋‹ค ํฌ๋ฉด activation,

 

0๋ณด๋‹ค ์ž‘๋‹ค๋ฉด deactivation์ด ๋งž๋‹ค.

 

๊ทธ๋Ÿฐ๋ฐ, ์šฐ๋ฆฌ๋Š” ๋ฏธ๋ถ„์„ ๋„ˆ๋ฌด๋‚˜๋„ ์ข‹์•„ํ•˜๋Š” ์‚ฌ๋žŒ๋“ค์ด๊ธฐ ๋•Œ๋ฌธ์—, ์œ„์™€ ๊ฐ™์€ step function์—์„œ๋Š” ๋ฏธ๋ถ„ํ•˜์—ฌ ๊ณ„์‚ฐํ•  ์ˆ˜๊ฐ€ ์—†๋‹ค.

 

๊ทธ๋ฆฌํ•˜์—ฌ, ์šฐ๋ฆฌ๋Š” ์œ„์™€ ๊ฐ™์€ sigmoid function์˜ ํ˜•ํƒœ๋ฅผ ๋„์ž…ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค.

 

๊ทธ๋Ÿฌ๋‚˜, ๋‚˜์ค‘์— ๋‹ค๋ฃจ๊ฒ ์ง€๋งŒ ์œ„์™€ ๊ฐ™์€ sigmoid function๋„ ๋ฌธ์ œ๋Š” ์กด์žฌํ•œ๋‹ค.

 

Vanishing Gradient์™€ ๊ฐ™์€ ๋ฌธ์ œ๋“ค์ด ๋ฐœ์ƒํ•˜๋ฏ€๋กœ ์šฐ๋ฆฌ๋Š” ์œ„์™€ ๊ฐ™์€ ํ•จ์ˆ˜๋ฅผ ํŠน์ˆ˜์ ์ธ ์ƒํ™ฉ์ด ์•„๋‹ˆ๋ฉด ๋ฐ˜์˜ํ•  ์ˆ˜ ์—†๊ฒŒ ๋˜์—ˆ๋‹ค.

 

์ถœ์ฒ˜ : https://www.engati.com/glossary/vanishing-gradient-problem

 

 

๊ทธ๋ฆฌํ•˜์—ฌ ์šฐ๋ฆฌ๋Š” neuron ๋ชจ๋ฐฉ ๋ง๊ณ  ํ•™์Šต์— ๋„์›€์ด ๋˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‹ค์‹œ activation function์„ ๋งŒ๋“ค์—ˆ๋‹ค.

 

๊ทธ๊ฒƒ์€ ReLU function์ด๋‹ค.

 

 

 

 

 

์šฐ๋ฆฌ๋Š” ์ด ํ•จ์ˆ˜๋กœ ๋” ๋‚˜์€ ํ•™์Šต์„ ์ด๋ฃจ์–ด๋ƒˆ๊ณ ,

 

๋˜ ๋‹ค๋ฅธ ๋ณ€ํ˜• ํ˜•ํƒœ๋กœ๋„ ๋งŽ์ด๋“ค ์กด์žฌํ•œ๋‹ค. ์—ฐ๊ตฌ๋Š” ๊ณ„์†๋˜๊ณ  ์žˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

BELATED ARTICLES

more