[NLP] Word Embedding - GloVe
๐ง๐ป๐ป ์ฃผ์ ์ ๋ฆฌ
NLP
Word Embedding
GloVe
์ด๋ฒ์๋ GloVe์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
ํต๊ณ ๊ธฐ๋ฐ์ Word2Vec๋ผ๋ ๊ฐ๋ ์ ๊ฐ์ง๊ณ ์ดํดํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
Word2Vec๋ Softmax regression ์ ์ด์ฉํ์ฌ ๋จ์ด์ ์๋ฏธ์ ์ ์ฌ์ฑ์ ๋ณด์กดํ์ฌ, ๋น์ทํ semantic์ ๊ฐ์ง๋ฉด ๋น์ทํ vector๋ฅผ ๊ฐ๋๋ก ํฉ๋๋ค.
Word2Vec ์ context words distribution ์ด ๋น์ทํ ๋ ๋จ์ด๊ฐ ๋น์ทํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ง๋๋๋ก ํ์ตํจ๊ณผ ๋์์, co-occurrence ๊ฐ ๋์ ๋จ์ด๋ค์ด ๋น์ทํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ง๋๋๋ก ํ์ตํฉ๋๋ค.
์ ๋ด์ฉ์ ์ฐธ๊ณ ๋ก, GloVe์ Word2Vec์ ์ฐจ์ด๋ฅผ ์ ์ดํด๋ณด๊ธฐ ๋ฐ๋๋๋ค.
Introduction to GloVe
Word2Vec ์ ํ๋์ ๊ธฐ์ค ๋จ์ด์ ๋จ์ด ๋ฒกํฐ๋ก ๋ฌธ๋งฅ ๋จ์ด์ ๋ฒกํฐ๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค.
GloVe ์ ๋จ์ด ๋ฒกํฐ ํ์ต ๋ฐฉ์์ ์ด์ ๋น์ทํ๋ฉด์๋ ๋ค๋ฆ ๋๋ค. Co-occurrence ๊ฐ ์๋ ๋ ๋จ์ด์ ๋จ์ด ๋ฒกํฐ๋ฅผ ์ด์ฉํ์ฌ co-occurrence ๊ฐ์ ์์ธกํ๋ regression ๋ฌธ์ ๋ฅผ ํ๋๋ค.
- Latent Semantic Analysis
- Pro : efficiently leverage statistical information
- Con : relatively poor on the word analogy task
- Word2Vec
- Pro : do better on the analogy ask
- Con : poorly utilize the statistics of the corpus
- They focus on local context windows instead of on global co-occurrence counts.
์ด ์ฌ์ค์ ๋ฐํ์ผ๋ก,
๊ธฐ์กด์ ๊ฒ๋ค์ธ Word2Vec๋ ๋น๋์๋ฅผ ๋ฐ์ํ์ง ์์ง๋ง, GloVe์์๋ ๋น๋์๋ฅผ ๋ฐ์ํ์ฌ emvedding์ ๊ตฌํํ๊ฒ ๋ค๋ ๊ฒ์ ๋๋ค.
์ฆ, frequency ๊ธฐ๋ฐ์ ํ์ต์ ๋๋ค.
์์ด๋์ด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๐ก Basic idea : The inner products of the embeddings of two words needs to be close to their co-occurring frequencies.
์์ ๊ฐ์ formula๋ฅผ ๊ฐ์ง๋๋ค.
vector์ weight์ธ w์์ ๊ณฑ๊ณผ bias์ธ b๋ฅผ ๋ํ ๊ฐ์ด co-ouccrence์ log์ ๋น์ทํด์ง๋๋ก weight์ bias๋ฅผ ํ์ตํฉ๋๋ค.
์ฆ, ๊ฐ๊ฐ์ด ๊ฐ์ด ๋์ฌ ํ๋ฅ ์ ๊ตฌํ์ฌ dataset์์ ํด๋น ํ๋ฅ ๋ค์ ๊ตฌํ๋ ๊ฒ์ ๋๋ค.
์ฐ๋ฆฌ๋ ๊ฒฐ๊ตญ,
embedding์ ์๊ฒ ํ๋ ๊ฐ์ ์ฐพ์์ผํฉ๋๋ค.
๋จ์ด๋ vector๋ก embeddingํ ๊ฐ์ด ๋ค์ด๊ฐ๊ฒ ๋ฉ๋๋ค.
์ ์์์์ weight๋ฅผ ๋ณด๋ฉด,
๊ณผ์ ์ ์ด๋ฌํฉ๋๋ค.
์ด๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ๋ค์์ ์์ ์ป์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ , ์ต์ข ์ ์ผ๋ก ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ high frequency words์ frequencies update๋ฅผ ์ค์ด๊ธฐ ์ํด ์์ ๊ฐ์ด ํฉ๋๋ค.
์์์ผ๋ก๋ถํฐ ์ฐ๋ฆฌ๊ฐ ์์์ผ ํ ๊ฒ์, ๋์์ ๋ฐ์ํ๋ frequency๋ฅผ ๋ฐ์ํ์ฌ ํ์ตํ๋ค๋ ๊ฐ๋ ์ ์ดํดํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
GloVe๋ฅผ ํตํด ํ์ตํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
'Artificial Intelligence > Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP] RNN (0) | 2023.04.04 |
---|---|
[NLP] Word Embedding - GloVe [practice] (0) | 2023.03.31 |
[NLP] Word Embedding - CBOW and Skip-Gram (2) | 2023.03.27 |
[NLP] Word Embedding - Word2Vec (0) | 2023.03.27 |
[NLP] Word Embedding - Skip Gram (0) | 2023.03.27 |