[Ensemble Learning] part 6 - 1
2023. 1. 20. 13:00
๐ง๐ป๐ป์ฉ์ด ์ ๋ฆฌ
Ensemble Learning
Expert
bagging
boosting
Random Forest
GBM
Ensemble Learning
- ์ด๋ฏธ ์ฌ์ฉํ๊ณ ์๊ฑฐ๋ ๊ฐ๋ฐํ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋จํ ํ์ฅ
- Supervised Learning task์์ ์ฑ๋ฅ์ ์ฌ๋ฆด ์ ์๋ ๋ฐฉ๋ฒ
- ๋จธ์ ๋ฌ๋์์ ์๊ณ ๋ฆฌ์ฆ์ ์ข ๋ฅ์ ์๊ด ์์ด ์๋ก ๋ค๋ฅด๊ฑฐ๋, ๊ฐ์ ๋งค์ปค๋์ฆ์ผ๋ก ๋์ํ๋ ๋ค์ํ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ฌถ์ด ํจ๊ป ์ฌ์ฉํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ฌ๋ฌ ๋ค๋ฅธ model์ ํจ๊ป ๋ชจ์ ์์ธก model์ ์งํฉ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค.
- ํ๋์ ํ์ต model์ ์ฐ๋ฆฌ๊ฐ expert๋ผ๊ณ ํํํ ์ ์์ต๋๋ค.
- ๋ค์ํ model์ ๊ฐ ์ฅ์ ์ ์ด๋ ค์ ์์ธก ์ฑ๋ฅ์ ํฅ์ํ ์ ์์ต๋๋ค.
- ์์ธก ์ฑ๋ฅ์ ์์ ์ ์ผ๋ก ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ด ์ฅ์ ์
๋๋ค.
- ํ๋์ model์ด ๊ฒฐ์ ํ๋ ๊ฒ๋ณด๋ค ๋ค์ํ ์ฌ๋ฌ ๊ฐ์ model์ ๊ฒฐ์ ์ผ๋ก ์ต์ข ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ noise ๋ฑ์ผ๋ก๋ถํฐ ๋ณด๋ค ์์ ์ ์ ๋๋ค.
- ์ฝ๊ฒ ๊ตฌํ์ด ๊ฐ๋ฅํฉ๋๋ค.
- ์ฌ๋ฌ ๊ฐ์ model์ ํ์ตํ๊ณ ๊ฑฐ์ ์ง์ ์ ์ผ๋ก ์ฐํฉํ์ฌ ์ ์ฉ์ ํ๊ธฐ ๋๋ฌธ์ ๊ฐํธํ๊ฒ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- model ๋ค์ ๋ ๋ฆฝ์ ์ผ๋ก ๋์ํ๊ธฐ ๋๋ฌธ์ model parameter์ tuning์ด ๋ง์ด ํ์ ์์ต๋๋ค.
- ๊ทธ๋ฌ๋ ๋จ์ ๋ ์กด์ฌํฉ๋๋ค.
- ์ด ๋ชจ๋ธ ์์ฒด๋ก๋ compactํ ํํ์ด ๋๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๊ฐ ์กด์ฌํฉ๋๋ค.
ensemble์ ํ๋์ค์ด๋ก "ํจ๊ป, ๋์์, ํ๊บผ๋ฒ์ ํ๋ ฅํ์ฌ" ๋ผ๋ ์๋ฏธ๊ฐ ์์ต๋๋ค.
Ensemble Methods
- ํ์ต data set์ randomํ๊ฒ S1๋ถํฐ .. Sn๊น์ง ๋๋์ด์ ํ์ต์ ์งํํ๊ฒ ๋ฉ๋๋ค.
- ๊ฐ๊ฑฐ๋ ๋ค๋ฅธ ํ์ต model๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๊ทธ๋์, ๊ฐ์ ํ์ต data๋ก ํ์ตํ๋ ๊ฒ์ ์ง์ํด์ผํฉ๋๋ค.
- ์ต์ข ๊ฒฐ์ ์ ์ฐ๋ฆฌ๊ฐ ๋ง์ง๋ง์ ํ์ตํ ๋ค์์ model์ด ๊ฐ๊ฐ ๊ฒฐ์ ์ ๋ด๋ฆฐ ํ ๋ค์๊ฒฐ๋ก ์ต์ข ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๊ฒ ๋ฉ๋๋ค.
Ensemble ๊ตฌ์ฑ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์์ ๊ธฐ์
- bagging
- ํ์ต ๊ณผ์ ์์ training sample์ ๋๋คํ๊ฒ ๋๋์ด ์ ํํด ํ์ตํ๋ ๊ฒ์ ๋๋ค.
- sample์ n๊ฐ๋ก ๋๋์ด sub sample์ ๊ตฌ์ฑํฉ๋๋ค.
- ์ด๋ ๊ฒ ๋๋ ์ง sub sample๋ค์ Classifier 1, 2, 3,... n๊ฐ๋ฅผ ํ์ตํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์๋ก ๊ฐ์ model์ ๊ฐ์ง์ง๋ผ๋ ์๋ก ๋ค๋ฅธ ํน์ฑ์ ํ์ต์ด ๊ฐ๋ฅํด์ง๋๋ค.
- model์ ๋ณ๋ ฌ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋ฉ๋๋ค.
- ๊ฐ sample set์ด ๋ค๋ฅธ model์ ์ํฅ์ ๋ฏธ์น์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- Bagging == Bootstrapping + aggregating
- Bootstrapping
- ๋ค์์ sample data set์ ์์ฑํด์ ํ์ตํ๋ ๋ฐฉ์์ ์๋ฏธํฉ๋๋ค.
- ๊ฐ์ model์ ์ฌ์ฉํ๋ค๋ฉด model parameter๊ฐ ์๋ก ๋ฌ๋ผ์ ธ์ผ ํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ sample์ randomํ๊ฒ ์ ํํด์ผํ ๊ฒ์ ๋๋ค.
- ๊ทธ๋ฌ๋, ์๋ก ๋ค๋ฅธ model์ ์ฌ์ฉํ๊ฒ ๋๋ค๋ฉด ์ด์ฐจํผ ์๋ก ๋ค๋ฅธ model ํํ๋ก ๋ค๋ฅด๊ฒ ๋์ํ๊ธฐ ๋๋ฌธ์ ๊ฐ์ sample์ ์ด์ฉํด๋ ๋ ๊ฒ์ ๋๋ค.
- ์ด๋ฐ ๊ณผ์ ์ m๋ฒ ๋ฐ๋ณตํ๋ฉด m๊ฐ data set๋ฅผ ์ฌ์ฉํ๋ ํจ๊ณผ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋ณด๋ค ๋ noise์ robustํ๊ฒ ๋ฉ๋๋ค.
- Bootstrapping
- lower variance์ ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ๊ณตํ๋๋ฐ ์ ์ฉํฉ๋๋ค.
- ๋ง์ผ, training sample์ ์ซ์๊ฐ ์ ๊ฑฐ๋ model์ด ๋ณต์กํ ๊ฒฝ์ฐ์ ๋ฐ์ํ๋ overfitting์ ๋ฌธ์ ์ ๋ํด์ sample์ randomํ๊ฒ ์ ํํ๋ ๊ณผ์ ์์ data augmentation ํจ๊ณผ๋ฅผ ๊ฐ์ง ์ ์๊ณ , ๊ฐ๋จํ model์ ์งํฉ์ผ๋ก ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
- boosting
- Sequentialํ๊ฒ ๋์ํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, Classifier 1์ ๊ฒฐ๊ณผ๋ฅผ Classifier 2 ํ์ต์ ์ ์ฉํฉ๋๋ค.
- Classifier 1์ ๊ฒฐ๊ณผ๋ก ์ด๋ค sample์ด ์ค์ํ๊ณ ์ด๋ค sample์ด ์ค์ํ์ง ์์์ง ์ ์ ์์ต๋๋ค.
- ๊ทธ๋ฌํ ๊ฒฐ์ ์ weight๋ฅผ ์ฃผ์ด์ ๋ค์ ํ์ต ๊ณผ์ ์์, Classifier 2 ํ์ต์ ์ ์ฉํ ์ ์์ต๋๋ค.
- ์ด๋ ๊ฒ ์ด์ ์ ๋์ํ Classifier๋ค์ ๋์์ ํ์ฌ์ Classifier ๊ฒฐ๊ณผ๋ฅผ ํฅ์ํ๋๋ฐ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- Weak Classifier์ Cascading
- Weak Classifier
- Bias๊ฐ ๋์ Classifier
- model ์์ฒด๊ฐ ๋จ์ํ์ฌ Strong classifier์ ๋นํด ์ฑ๋ฅ์ด ๋ฎ์์ ํผ์์๋ ๋ฌด์์ ํ๊ธฐ ์ด๋ ค์ด model์ ๋๋ค.
- ๊ทธ๋ฌ๋ ์ด๋ฌํ model์ "Cascading"ํ์ฌ ์ ์ฉํ๊ฒ๋๋ฉด, ์ฐ์์ ์ผ๋ก ์ ์ฉ์ด ๋์ด์ Sequentialํ ํน์ฑ์ ๊ฐ์ง๊ณ Classifier์ ํน์ฑ์ ์ฌ๋ฆด ์๊ฐ ์์ต๋๋ค.
- Weak Classifier
- ๋ํ์ ์ Boosting Algorithm
- Adaboost
- base classifier์ ์ํด์ ์ค๋ถ๋ฅ๋ sample์ ๋ํด ๋ณด๋ค ๋์ ๊ฐ์ค์น๋ฅผ ๋์ด ๋ค์ ํ์ต์ ์ฌ์ฉํ ์ ์๊ฒ ํฉ๋๋ค.
- ๊ฐ๋จํ๊ฒ ๊ตฌํ ๊ฐ๋ฅํฉ๋๋ค.
- ํน์ ํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌ์ ๋ฐ์ง ์์ต๋๋ค.
- Adaboost
- Bagging๊ณผ Boosting์ ํ์ฉํ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ
- Random Forest
- ์๋ก ๋ค๋ฅด๊ฒ ํ์ต๋ Decision Tree์ ๊ฒฐ์ ์ผ๋ก ์์ธก์ ์ํํ๊ธฐ ๋๋ฌธ์ ์ ์ฒด์ ์ผ๋ก Bagging์ ํตํด ํ์ตํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
- Gradient Boostting Machine (GBM)
- ๋งค Node์์ ๊ฒฐ์ ์ด ์ด๋ฃจ์ด์ง๊ธฐ ๋๋ฌธ์ ์ Classification์ Sequentialํ Boosting์ ์คํํ๋ค๊ณ ํ ์ ์์ต๋๋ค.
- Machine Learning Competition์์ ์ฐ์ํ ์ฑ๋ฅ์ ์๋ํฉ๋๋ค.
- Random Forest
- Sequentialํ๊ฒ ๋์ํฉ๋๋ค.
'Artificial Intelligence' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Seq2Seq with Attention for Natural Language Understanding and Generation] Part 4 - 1 (0) | 2023.01.25 |
---|---|
[Ensemble Learning] part 6 - 2 (0) | 2023.01.20 |
[Advanced Classification] part 5 - 3 (0) | 2023.01.19 |
[Advanced Classification] part 5 - 2 (0) | 2023.01.19 |
[Advanced Classification] part 5 - 1 (0) | 2023.01.19 |