文本挖掘 HW1

2018-07-11  本文已影响0人  在做算法的巨巨

HW1介绍:
对已经建好的corpos库进行column拓展,拓展对象是ClassList.txt的文本信息。

import os
import os.path
import codecs #避免编码不统一导致open file失效
import pandas as pd
#data import
filePaths=[]
fileContents=[]
a=os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample")

for root, dirs, files in os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample"):
    for name in files:
        filePath=os.path.join(root,name)
        filePaths.append(filePath)
        f = codecs.open(filePath,'r','utf-8')
        fileContent=f.read()
        f.close()
        fileContents.append(fileContent)
#建立corpos库
corpos = pd.DataFrame({'filePath':filePaths,'fileContent':fileContents})
#要把classList.txt并入我们发现,首先需要做的是匹配前边的class编号,每一个编号都有10种文本
classList=pd.read_table("D:/BaiduNetdiskDownload/2.1/SogouC.mini/ClassList.txt",header=None,encoding='gb2312')

corpos['classNo']=corpos['filePath'].str.slice(-14,-7)
classList.columns=['classNo','className']

corpos=pd.merge(corpos,classList,how='left')
预览
上一篇下一篇

猜你喜欢

热点阅读