文本挖掘 HW1
2018-07-11 本文已影响0人
在做算法的巨巨
HW1介绍:
对已经建好的corpos库进行column拓展,拓展对象是ClassList.txt的文本信息。
import os
import os.path
import codecs #避免编码不统一导致open file失效
import pandas as pd
#data import
filePaths=[]
fileContents=[]
a=os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample")
for root, dirs, files in os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample"):
for name in files:
filePath=os.path.join(root,name)
filePaths.append(filePath)
f = codecs.open(filePath,'r','utf-8')
fileContent=f.read()
f.close()
fileContents.append(fileContent)
#建立corpos库
corpos = pd.DataFrame({'filePath':filePaths,'fileContent':fileContents})
#要把classList.txt并入我们发现,首先需要做的是匹配前边的class编号,每一个编号都有10种文本
classList=pd.read_table("D:/BaiduNetdiskDownload/2.1/SogouC.mini/ClassList.txt",header=None,encoding='gb2312')
corpos['classNo']=corpos['filePath'].str.slice(-14,-7)
classList.columns=['classNo','className']
corpos=pd.merge(corpos,classList,how='left')
预览