[XAI] ์ค๋ช ๊ฐ๋ฅํ AI (Explainable AI)
๐ง๐ป๐ป์ฉ์ด ์ ๋ฆฌ
XAI
์์จ์ฃผํ, ์๋ฃ ์ธ๊ณต์ง๋ฅ ๋ฐ ์ฌ๋ฌ ๊ฐ์ง ์์๊ฐ ์ธ๊ฐ์๊ฒ ์ง์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ ๋ํด ํ์ํด์ง๋๋ค.
์ AI๊ฐ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ด์๋์ง ์ค๋ช ์ด ํ์ํด์ก์ต๋๋ค.
XAI ๊ธฐ๋ฒ
- ๋ชจ๋ธ/๋ฐ์ดํฐ์ ์ ์ค๋ฅ ์์ถ
- ๋ชจ๋ธ์ด ์ผ๋ง๋ ํธํฅ๋์๋
- ์์จ์ฃผํ ์๋์ฐจ๊ฐ ์ด๋ป๊ฒ ์๋ชป ์ธ์ํ์ฌ ๊ทธ๋ฌํ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ด์๋๊ฐ
- COVID-19 X-ray ๊ฒ์ถ
์ด๋ป๊ฒ ํด์ผ ์ค๋ช ๊ฐ๋ฅ์ฑ์ ๋์ผ ์ ์์๊น?
- Localํ ๋ฐฉ๋ฒ
- ์ฃผ์ด์ง ํน์ ๋ฐ์ดํฐ์ ๋ํ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ค๋ช ํ๋ ค๋ ๋ฐฉ๋ฒ
- Globalํ ๋ฐฉ๋ฒ
- ์ ์ฒด ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ํ๋์ ์ค๋ช ํ๊ณ ์ ํ๋ ๋ฐฉ๋ฒ
- White-box ๋ฐฉ๋ฒ
- ๋ชจ๋ธ์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ์ ํํ๊ฒ ์๊ณ ์๋ ์ํฉ์์ ์ค๋ช ์ ์๋ํ๋ ๋ฐฉ๋ฒ
- Black-box ๋ฐฉ๋ฒ
- ๋จ์ํ ๋ชจ๋ธ์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ๋ง ๊ฐ์ง๊ณ ์ค๋ช ์ ์๋ํ๋ ๋ฐฉ๋ฒ
- Instinsic
- ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ํ๋ จํ๊ธฐ ์ ๋ถํฐ ์ค๋ช ํ๊ธฐ ์ฉ์ผํ๋๋ก ์ ์ํ ๋ค ํ์ต์ ์์ผ์ ๊ทธ ํ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ์ค๋ช ํ๋ ๋ฐฉ๋ฒ
- Post-hoc
- ์์ ๋ชจ๋ธ์ ํ๋ จ์ด ๋๋ ๋ค์ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉํด์ ๊ทธ ๋ชจ๋ธ์ ํ๋์ ์ค๋ช ํ๋ ๋ฐฉ๋ฒ
- Model-specific
- ํน์ ๋ชจ๋ธ ๊ตฌ์กฐ์๋ง ์ ์ฉ์ด ๊ฐ๋ฅ
- Model-agnostic
- ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๊ด๊ณ์์ด ์ด๋ ๋ชจ๋ธ์๋ ํญ์ ์ ์ฉ
Linear model , Simple Decision Tree
- Global, White-box, Intrinsic, Model-specific
Grad-CAM
- Local, White-box, Post-hoc, Model-agnostic
Saliency map-based
์ ๋ ฅ์ ๋ํ ๋ชจ๋ธ์ Gradient๋ก ์ค๋ช ์ ์ ๊ณตํ๋ ๊ฒ์ด ๊ฐ์ฅ ๊ฐ๋จํฉ๋๋ค.
Gradient๊ฐ ํฌ๋ค๋ฉด ํด๋น ํฝ์ ์ด ์ถ๋ ฅ ๊ฐ์ ์ํฅ์ ๋ง์ด ๋ฏธ์น๋ ๊ฒ์ด๋ฏ๋ก ์ค์ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ Back Propagation์ผ๋ก ์ฝ๊ฒ ๊ณ์ฐํ ์ ์๊ธฐ ๋๋ฌธ์ ๊ตฌํ์์ผ๋ก๋ ๊ฐ๋จํ ๊ตฌํํ ์ ์๋ค๋ ์ด์ ์ด ์์ต๋๋ค.
- Strength
- Back Propagation์ ํตํด ์ฝ๊ฒ ๊ณ์ฐ ๊ฐ๋ฅํฉ๋๋ค.
- Weakness
- shattering gradient problem ์ผ๋ก ์ธํด noisy ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
- ์ด noisy๋ฅผ ์์ ๊ธฐ ์ํด SmoothGrad๋ผ๋ ๋ฐฉ๋ฒ์ด ์ ์๋์์ต๋๋ค.
- Gradient๋ฅผ ๊ตฌํ๋ ๊ฒ์ ์ฌ๋ฌ ๋ฒ ํ์ฌ gradient๋ค์ ํ๊ท ์ผ๋ก ์ค๋ช ์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- ๊น๋ํ๊ฒ ์ค๋ช ํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
- ๋๋ถ๋ถ์ Saliency-map ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์๋ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
- noisy๋ฅผ ์๋ ํ์ ๋งํผ Deep Learning model์ forward-backward pro
- Class Activation Map (CAM)
- Weakly Supervised Learning
- Grad-CAM
- LIME(Local Interpretable Model-agnostic Explanations
- Block-box
- Influence function
- ์์ธก์ ๋ํ ์ค๋ช
- Human-based visual assessment
- ์๊ฐ ๋ง์ด ๋ฆ
- Human-based visual assessment
- Human annotation
- Pixel perturbation
- AOPC (Area Over the MoRF Perturbation Curve)
- Insertion
- Deletion
- ROAR (Remove and Retrain)
- Model randomization
- Adversarial attack
- softplus
- Adversarial model manipulation
'Artificial Intelligence > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] ์ ๊ฒฝ๋ง ๊ธฐ์ด 3 (0) | 2023.02.08 |
---|---|
[Machine Learning] ์ ๊ฒฝ๋ง ๊ธฐ์ด 2 (2) | 2023.02.06 |
[Convolutional Neural Networks and Image Classification] Part 3 (0) | 2023.01.24 |
[Training Neural Networks] part 2 (0) | 2023.01.24 |
[Deep Neural Network] part 1 - 2 (0) | 2023.01.22 |