[Foundation of Supervised Learning] part 1 - 2
๐ฏ Keyword ๐ฏ
- Generalization
- training error
- validation error
- test error
- Curse of dimension
- Regularization
- Ensemble
- cross-validation
Machine Learning์ ๊ทธ ์์ฒด๋ก Data์ ๊ฒฐํ์ผ๋ก ์ธํ ๋ถํ์ค์ฑ์ ํฌํจํ๊ณ ์์ต๋๋ค.
๋ชจ๋ Data ์ดํ ์ ์๊ธฐ ๋๋ฌธ์ด์ฃ .
๊ทธ๋์ ์ฐ๋ฆฌ์๊ฒ ์ค์ํ ๊ฒ์
Generalization์ ๋๋ค.
๋ชจ๋ธ์ด ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํ measurement๋ก์จ Generalization error E ๋ฅผ ์ ์ํด์ผ ํฉ๋๋ค.
Supervised Learning์ ์์ด ๋ค์๊ณผ ๊ฐ์ Error๋ฅผ ํตํด ๋ฅผ Generalization error E ์ต์ํ ํฉ๋๋ค.
- training error
- validation error
- test error
- Squared error e
- binary error e
์ด๋ฌํ Error ๋ค์ ๊ณ์ฐํ์ฌ ์ฐ๋ฆฌ๋
loss function or cost function ์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
Training Error E
=> model์ ์ฃผ์ด์ง data set์ ๋ง์ถ์ด ํ์ตํ๋๋ฐ ์ฌ์ฉํ๋ error.
-> ์ฆ, ์ฃผ์ด์ง Sample์์ model parameter๋ฅผ ์ต์ ํ ํ๋๋ก ์ฌ์ฉํฉ๋๋ค.
-> ๋ฐ๋ผ์ Generalization error E๋ฅผ approximationํ๋๋ฐ ์ ํฉํ์ง ์์ต๋๋ค.
Test Error E
=> Training Sample๊ณผ Overlap ๋์ง ์๋๋ก data set์์ ์ผ๋ถ Sample๋ฅผ ์ผ๋ถ ๋ผ์ด์ Test sample์ ์ ์.
-> Real world์์์ error๋ฅผ ํํํ๋ ๊ฒ.
๋ชฉ์ : Test Error E๊ฐ 0์ผ๋ก ๊ทผ์ฌํ ์ ์๋๋ก ํ๋ ๊ฒ.
How to achieve the goal in practice ?
- Test Error E๊ฐ Train Error E์ ๊ทผ์ฌํ๋๋ก ํ๋ ๊ฒ.
- Train Error E๊ฐ 0์ ๊ทผ์ฌํ๋๋ก ํ๋ ๊ฒ.
- Test Error E๊ฐ Train Error E์ ๊ทผ์ฌํ๋๋ก ํ๋ ๊ฒ.
- ์คํจ ์ Overfitting -> high variance
- ํด๊ฒฐ ๋ฐฉ์ : reqularization, more data
- ์คํจ ์ Overfitting -> high variance
- Traing Error E๊ฐ 0์ ๊ทผ์ฌํ๋๋ก ํ๋ ๊ฒ,
- ์คํจ ์ Underfitting -> high bias
- ํด๊ฒฐ ๋ฐฉ์ : optimization, more complex model
- ์คํจ ์ Underfitting -> high bias
Bias - Variance trade-off ๊ด๊ณ
-> ์ด ๋ ๊ฐ์ง์ ์์๋ฅผ ์ ์ ํ generalizationํด์ ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ๊ตฌ์ฑํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
ํ ์์
-> CV, NLP ๋ฑ ๋ณต์ก๋ ์ฆ๊ฐ ์๋๋ ๋นจ๋ผ์ง์ง๋ง Data set ์ํ ์๊ฐ ๊ทธ๊ฒ์ ๋ฐ๋ผ๊ฐ์ง ๋ชป ํฉ๋๋ค.
์ด ๊ฒ์์ Overfitting ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
Avoid overfitting
-> Curse of dimension (์ฐจ์์ ์ ์ฃผ ๋ฌธ์ )
=> ๋ง์ฝ, ์ ๋ ฅ Data ๋๋ ์ ๋ ฅ feature์ ์ฐจ์์ด ์ฆ๊ฐํ๋ค๋ฉด ์ง์์ ์ผ๋ก ์ํ์ ์ซ์๊ฐ ๋์ด๋์ผ ํ์ง๋ง ๊ทธ๋ ๊ฒ ํ๊ธฐ ์ด๋ ต์ต๋๋ค.
-> data๋ฅผ ๋๋ฆฌ๋ฉด ๋๋ค ! => ํ์ค์ ์ผ๋ก ์ด๋ ค์
-> Data augmentation ํด๊ฒฐ ๋ฐฉ์
- Regularization
- Ensemble
K-fold cross-validation
-> training set๋ฅผ k๊ฐ์ Group์ผ๋ก ๊ตฌ๋ถํฉ๋๋ค.
-> K - 1๊ฐ์ group์ training, 1๊ฐ๋ฅผ validation์ผ๋ก ์ด์ฉํฉ๋๋ค.
=> validation์ ๋ชจ๋ธ์ ์ต์ ํ๋ฅผ ์ํจ์ ๋๋ค.
=> ๋ชจ๋ธ์ ์ผ๋ฐํ์ ๋์์ ์ค๋๋ค.
=> ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ ์ต์ข ์ฑ๋ฅ์ Test Data Set๋ฅผ ์ด์ฉํด์ ์ธก์ ํ๊ฒ ๋ฉ๋๋ค.
'Artificial Intelligence' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Gradient Descent] part 2 - 3 (0) | 2023.01.14 |
---|---|
[Linear Regression] part 2 - 2 (0) | 2023.01.14 |
[Linear Regression] part 2 - 1 (0) | 2023.01.14 |
[Foundation of Supervised Learning] part 1 - 1 (0) | 2023.01.12 |
Deep Learning ๊ธฐ๋ฐ ์ดํด (0) | 2022.02.21 |