NLP自然语言处理-文本预处理-文本张量表示方法-word em

2021-03-30  本文已影响0人  涓涓自然卷

一、数据样本:vocab100.csv

样本数据分享:

二、编写py脚本:vim demo3.py

word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。

import fileinput

import torch
import json
from torch.utils.tensorboard import SummaryWriter
"""
word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。
"""

# 实例化一个摘要写入对象
writer = SummaryWriter()

# 随机初始化一个100*5的矩阵,认为它是我们已经得到的词嵌入矩阵
# 代表100个词汇,每个词汇被表示成50维的向量
embedded = torch.randn(100, 50)

# 导入事先准备好的100个中文词汇文件,形成meta列表原始词汇
meta = list(map(lambda x: x.strip(), fileinput.FileInput(
    "/Users/weixiujuan/study/text_preprocess/vocab100.csv")))
writer.add_embedding(embedded, metadata=meta)
writer.close()

三、执行py脚本:

➜ data python demo3.py

四、终端输入如下命令启动tensorboard服务:

➜ data tensorboard --logdir runs --host 0.0.0.0

五、浏览器打开所提示的网址即可看到可视化的词嵌入矩阵,使用右侧近邻词汇功能检测效果:

http://0.0.0.0:6007/

六、可以在词嵌入矩阵界面看到相关信息,很神奇吧。

效果1.png 效果2.png

七、希望大家可以试试简单的代码,将文本进行可视化的嵌入矩阵,效果很神奇。

上一篇 下一篇

猜你喜欢

热点阅读