[非監督]Word Embedding

2019-01-18  本文已影响0人  RJ阿杰

簡介

假設我們有5個類別,我們做one-hot-encoder變成5維的數據,我們可以用Word Embedding將資料分類,變成低於5維的數據。
機器在沒有監督的情況下閱讀大量文件來學習單詞的意義,一個詞可以通過其語境來理解。

Word Embedding兩種做法

變形

用前一個與後一個詞彙測中間那個詞彙,或中間預測前後詞彙。


CBOW、Skip-gram

進行類推

Word Embedding與PCA一樣都有類似的現象,因此我們可以輸入中國、日本、東京來類推中國首都。



實作

#範例
search_list = np.flatnonzero(input)
output = []
for index in search_list :
  output.append(hidden[:,index ])
output = np.array(output)


參考李宏毅老師ML課程
推薦閱讀

上一篇 下一篇

猜你喜欢

热点阅读