[NLP] Word Embedding - Word2Vec
๐ง๐ป๐ป ์ฃผ์ ์ ๋ฆฌ
NLP
Word Embedding
Word2Vec
Word2Vec
Training of Word2Vec ๋ฐฉ์์ ๋ง์ด ๋์ค๋ ๊ฒ์ ์์ฃผ ํ์ตํ๋ค๋ ๊ฒ์ ์ด์ ์ ๋์ต๋๋ค.
-> ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ ๋ ๋์ ๊ฐ๋ฅ์ฑ์ผ๋ก ์ ๋ฐ์ดํธ๊ฐ ์ด๋ฃจ์ด์ง๋๋ค.-> ๋จ์ด๋ค์ ํ๋ฅ ๊ณผ ํจ๊ฒ ์ค์ ํฉ๋๋ค.
์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ๋น๋์๊ฐ ๋ฎ์์ง ์๋ก, ๋๋ํ ํ๋ฅ ์ด ์์์ง๋๋ค.
๊ทธ๋ฆฌ๊ณ , ๋น๋์๊ฐ ๋์์ง ์๋ก, 1์์ ๋น ์ง๋ ์๊ฐ ๊ฐ์ํ๋ฏ๋ก, ๋๋ํ ํ๋ฅ ์ด ๋์์ง๋๋ค.
Negative Sampling
์๋์ ๊ฐ์ skip-gram์ ํํ๋ฅผ ๋ณด๊ฒ ์ต๋๋ค.
์๋ ๊ทธ๋ฆผ์์ ๋ฌธ์ฅ์์ cat์ ํตํด 4๊ฐ์ง ๋จ์ด๋ฅผ output์ผ๋ก ๋ ๋๋ค.
์ฌ๊ธฐ์ negative sampling์,
input๊ณผ output์ด์๋ text๋ค์ ๋ชจ๋ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ํด๋น ๊ฐ๋ค์ด ๊ฐ๊น์ด ์์ ํ๋ฅ ์ ์ถ๋ ฅ์ผ๋ก ๋ฑ์ด๋ ๋๋ค.
์ด๋ Activation function์ softmax function์ ์ฌ์ฉํฉ๋๋ค.
์ด๋ฅผ Skip-gram(Skip-Gram with Negative Sampling, SGNS), SGNS๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
๊ทธ๋ฆฌ๊ณ , ์ฌ๊ธฐ์ ๋ ์ด๋ธ์ ์ค๋ฅธ์ชฝ๊ณผ ๊ฐ์ด ๋ฐ๊ฟ๋๋ค.
๊ทธ๋ฆฌ๊ณ ๋ ์ด๋ธ์ด 1์ธ ๋ ์ด๋ธ์ ํ๊ณ , ์ด์ ๋ ์ด๋ธ์ด 0์ธ ์ํ๋ค์ ์์ ๊ฐ์ด ๋ฃ์ต๋๋ค.
์ด์ ์ด ๋ฐ์ดํฐ์ ์ ์ ๋ ฅ1๊ณผ ์ ๋ ฅ2๊ฐ ์ค์ ๋ก ์๋์ฐ ํฌ๊ธฐ ๋ด์์ ์ด์ ๊ด๊ณ์ธ ๊ฒฝ์ฐ์๋ ๋ ์ด๋ธ์ด 1, ์๋ ๊ฒฝ์ฐ์๋ ๋ ์ด๋ธ์ด 0์ธ ๋ฐ์ดํฐ์ ์ด ๋ฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์์ ๊ฐ์ด negative sampling์ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ ์์ต๋๋ค.
Negative sampling์ ๋๋ฌด๋๋ ํฐ V์ ํฌ๊ธฐ์ ๋ํด์ softmax function์ ์คํํ๋ ๋ฐ๋ ๋๋ฌด๋๋ ๋ง์ ์๊ฐ์ด ๊ฑธ๋ ค ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์ค๊ฒ ๋์์ต๋๋ค.
๋๋คํ๊ฒ 5 ~. 5๊ฐ์ negative samples๋ค์ ๋ฝ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ , ์ ํ๋ ๋จ์ด์์ softmax๋ฅผ ๊ณ์ฐํ๊ณ , ๊ฐ๊ฐ์ words์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํฉ๋๋ค.
์์ ๊ฐ์ด Word2Vec๋ฅผ ํ์ต์ํฌ ์ ์์ต๋๋ค.
Word Analogies
์ด์ ์ค์ ๋ก, ๋จ์ด๋ฅผ ๋ฒกํฐ๊ฐ์ ๊ณ์ฐ์ผ๋ก ์ผ๋ง๋ ์ผ์นํ๋ ๋จ์ด๋ฅผ ๋ฝ์ ์ ์๋ ๊ฐ๋ฅผ ๋ณด๊ฒ ์ต๋๋ค.
vec(“Berlin”) - vec(“Germany”) + vec(“France”)
์ ๋ฌธ์ฅ์ ๊ฒฐ๊ณผ๋ ๋ฌด์์ด ๋ ๊น์?
๋น์ทํ ์์๋ก ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ณผ ์ ์์ต๋๋ค.
๋๋์ด ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ์ฌ ์ง์ ์ ์ธ ์์น๋ฅผ ์ถ์ถํ์ฌ ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๊ฒ ๋์์ต๋๋ค.
Additive Compositionality
Additive Compositionality can meaningfully combine vectors with termwise addition
๊ทธ๋ฆฌ๊ณ ์ซ์ ํํ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ ์ป์ ์ ์์์ต๋๋ค.
- Word Vectors
- Word vectors in linear relationship with softmax nonlinearity
- Vectors represent distribution of context in which word appears
- Vectors are logarithmically related to probabilities
- Sum of word vectors
- Sums correspond to products.
- Product of context distributions
- ANDing together the two words in the sum.
'Artificial Intelligence > Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP] Word Embedding - GloVe (0) | 2023.03.31 |
---|---|
[NLP] Word Embedding - CBOW and Skip-Gram (2) | 2023.03.27 |
[NLP] Word Embedding - Skip Gram (0) | 2023.03.27 |
[NLP] Word Embedding - CBOW (1) | 2023.03.27 |
[NLP] Introduction to Word Embedding (0) | 2023.03.26 |