NLP自然语言处理-文本预处理-文本张量表示方法-word em

2021-03-30 本文已影响0人涓涓自然卷

一、数据样本：vocab100.csv

样本数据分享：

链接: https://pan.baidu.com/s/1LOhOgR8bpAaMNa9EttdOEg 提取码: cvgm 复制这段内容后打开百度网盘手机App，操作更方便哦。

二、编写py脚本：vim demo3.py

word embedding可视化分析：通过使用tensorboard可视化嵌入的词向量。

脚本内容：
1、实例化一个摘要写入对象。
2、随机初始化一个100*5的矩阵，认为它是我们已经得到的词嵌入矩阵：代表100个词汇，每个词汇被表示成50维的向量。
3、导入事先准备好的100个中文词汇文件，形成meta列表原始词汇。

import fileinput

import torch
import json
from torch.utils.tensorboard import SummaryWriter
"""
word embedding可视化分析：通过使用tensorboard可视化嵌入的词向量。
"""

# 实例化一个摘要写入对象
writer = SummaryWriter()

# 随机初始化一个100*5的矩阵，认为它是我们已经得到的词嵌入矩阵
# 代表100个词汇，每个词汇被表示成50维的向量
embedded = torch.randn(100, 50)

# 导入事先准备好的100个中文词汇文件，形成meta列表原始词汇
meta = list(map(lambda x: x.strip(), fileinput.FileInput(
    "/Users/weixiujuan/study/text_preprocess/vocab100.csv")))
writer.add_embedding(embedded, metadata=meta)
writer.close()

三、执行py脚本：

➜ data python demo3.py

四、终端输入如下命令启动tensorboard服务：

➜ data tensorboard --logdir runs --host 0.0.0.0

五、浏览器打开所提示的网址即可看到可视化的词嵌入矩阵，使用右侧近邻词汇功能检测效果：

http://0.0.0.0:6007/

六、可以在词嵌入矩阵界面看到相关信息，很神奇吧。

效果1.png

效果2.png

NLP自然语言处理-文本预处理-文本张量表示方法-word em

一、数据样本：vocab100.csv

二、编写py脚本：vim demo3.py

三、执行py脚本：

四、终端输入如下命令启动tensorboard服务：

五、浏览器打开所提示的网址即可看到可视化的词嵌入矩阵，使用右侧近邻词汇功能检测效果：

六、可以在词嵌入矩阵界面看到相关信息，很神奇吧。

七、希望大家可以试试简单的代码，将文本进行可视化的嵌入矩阵，效果很神奇。

猜你喜欢

热点阅读