中秋爬取诗文数据制作词云

2019-09-25 本文已影响0人 C6C

正好中秋节，为了应景，便利用Python来网上爬些中秋诗句来制作词云，词云可基于文本内容的词频进行可视化研究，是比较常见的文本分析可视化方法。

按照惯例，先上效果图。

中秋词云.png

一、制作步骤

1.数据爬取及清洗
2.数据加载制作词云，主要包括分词-统计词频-去停用词-制作词云

二、数据爬取及清洗

2.1 诗句标题列表爬取

爬虫目标是古诗文网，选择中秋主题，跳转到https://so.gushiwen.org/gushi/zhongqiu.aspx链接，要先把这个列表页面的所有诗句爬取下来。

古诗列表.png

看看响应结果内容，有两个数据是我们需要的，分别是href中的属性内容，需要用它来请求后续的具体诗句，还有就是诗句标题。

古诗返回结果.png
定位在div为typecont的标签，爬取的结果如下:

/shiwenv_632c5beb84eb.aspx
水调歌头·明月几时有(苏轼)
/shiwenv_e38b61012996.aspx
中秋月(晏殊)
/shiwenv_4d2028af6aed.aspx
西江月·世事一场大梦(苏轼)
/shiwenv_2e73c8b1e52f.aspx
天竺寺八月十五日夜桂(皮日休)
/shiwenv_76c8331c8937.aspx
...

2.2 诗句内容爬取

在拿到所有的诗句标题列表之后，根据其请求规律https://so.gushiwen.org/shiwenv_632c5beb84eb.aspx，也就是https://so.gushiwen.org/+href进行拼接来请求具体诗句内容，我们要做的对诗文列表进行遍历爬下所有数据即可。

诗句内容.png
定位div为sons标签下的div为contson 标签，就可取出，拿到后把诗文合并为一行即可。
具体爬取内容打印如下:

水调歌头·明月几时有(苏轼)::丙辰中秋，欢饮达旦，大醉，作此篇，兼怀子由。明月几时有？把酒问青天。不知天上宫阙，今夕是何年。我欲乘风归去，又恐琼楼玉宇，高处不胜寒。起舞弄清影，何似在人间？(何似 一作：何时；又恐 一作：惟 / 唯恐)转朱阁，低绮户，照无眠。不应有恨，何事长向别时圆？人有悲欢离合，月有阴晴圆缺，此事古难全。但愿人长久，千里共婵娟。(长向 一作：偏向)
中秋月(晏殊)::十轮霜影转庭梧，此夕羁人独向隅。未必素娥无怅恨，玉蟾清冷桂花孤。
...

2.3 具体代码示例

Python爬虫需要两个工具，

Requests 库，一款比较好用的HTTP库，用于网络请求。
BeautifulSoup 库，一款优秀的HTML/XML解析库。

这些库安装方式为pip install bs4、pip install requests

from bs4 import BeautifulSoup
import requests

def Get_url():
   
    url = 'https://so.gushiwen.org/gushi/zhongqiu.aspx'
    head = {}
    head['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
    req = requests.get(url, headers=head)
    soup = BeautifulSoup(req.content)
#         print(req.text)

    file=r'mid-autumn.txt'
    # 获取textarea标签中的内容
    for i in soup.find_all('div',class_='typecont'):
        a = i.find_all('a')
        span = i.find_all('span')
        
        for index in range(0, len(a)):
            print(a[index].attrs['href'])
            print(span[index].text)
            
            url2 = 'https://so.gushiwen.org/'
            url3 = url2 + a[index].attrs['href']
            req2 = requests.get(url3, headers=head)
            soup2 = BeautifulSoup(req2.content)
        
            song = soup2.find_all('div',class_='sons')
            content = song[0].find_all('div',class_='contson')
            print(content[0].text)

            file=r'yongshi3.txt'
            with open(file,'a+') as f:
                # 以[题目::诗]的格式写入文件
                f.write(span[index].text.strip()+"::"+content[0].text.replace("\n", "")+'\n')
                f.close()
        
 
if __name__ == '__main__':
    Get_url()

三、词云制作

要先进行分词才能对每个词进行频数统计， Python下安装分词器命令为pip install jieba，安装后直接import jieba即可。

import jieba

content = '丙辰中秋，欢饮达旦，大醉，作此篇，兼怀子由。明月几时有？把酒问青天。不知天上宫阙，今夕是何年。我欲乘风归去，又恐琼楼玉宇，高处不胜寒。起舞弄清影，何似在人间？(何似 一作：何时；又恐 一作：惟 / 唯恐)转朱阁，低绮户，照无眠。不应有恨，何事长向别时圆？人有悲欢离合，月有阴晴圆缺，此事古难全。但愿人长久，千里共婵娟。(长向 一作：偏向)'
segs = jieba.lcut(content)
print("/".join(segs))

可以看看分词结果:

丙辰/中秋/，/欢饮/达旦/，/大醉/，/作此/篇/，/兼怀子/由/。/明月/几时/有/？/把酒/问青天/。/不知/天上/宫阙/，/今夕/是/何年/。/我/欲/乘风/归去/，/又/恐/琼楼玉宇/，/高处不胜/寒/。/起舞/弄清/影/，/何似/在/人间/？/(/何似/ /一作/：/何时/；/又/恐/ /一作/：/惟/ /// /唯恐/)/转朱阁/，/低绮户/，/照无眠/。/不/应有/恨/，/何事/长向/别时圆/？/人有/悲欢离合/，/月/有/阴晴圆/缺/，/此事/古难全/。/但愿人长久/，/千里/共/婵娟/。/(/长向/ /一作/：/偏向/)

然后我们还需要的是制作词云用的库，也要先安装pip install wordcloud，对数据进行分词和去停用词后的操作其实就是对这个工具的使用了，完整的示例如下：

import jieba
import pandas as pd
import numpy as np
from imageio import imread
from wordcloud import WordCloud,ImageColorGenerator
import matplotlib.pyplot as plt
from gensim import corpora, models, similarities
import gensim

#定义停用词
stopwords=pd.read_csv("./stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')
#stopwords=stopwords['stopword'].values
#加载语料
df = pd.read_csv('./mid-autumn.csv', encoding='utf-8')
print(df.head(5))
#删除nan行
df.dropna(inplace=True)
lines = df.content.values.tolist()
print(lines[0].split('::')[1])
#用jieba进行分词操作
segment=[]
#分词
for line in lines:
    try:
        line = line.split('::')[1]
        segs = jieba.lcut(line)
        segs = [v for v in segs if not str(v).isdigit()] #过滤数字
        segs = list(filter(lambda x:x.strip(), segs)) #过滤空格
        #segs = list(filter(lambda x:x not in stopwords, segs)) #去掉停用词
        for seg in segs:
            if len(seg)>1 and seg!='\r\n':
                segment.append(seg)
    except Exception:
        print(line)
        continue
#分词后加入一个新的DataFrame
words_df=pd.DataFrame({'segment':segment})
#安装关键字groupby分组统计词频，并按照计数降序排序
words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":np.size})
words_stat=words_stat.reset_index().sort_values(by=["计数"],ascending=False)
#分组之后去掉停用词
words_stat=words_stat[~words_stat.segment.isin(stopwords.stopword)]
#print(words_stat)

#下面是重点，绘制wordcloud词云，这一提供2种方式
#第一种是默认的样式
#定义wordcloud中字体文件的路径
simhei = "./car.ttf"
wordcloud=WordCloud(font_path=simhei,background_color="white",max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)
wordcloud.to_file(r'wordcloud_1.jpg')  #保存结果

#第二种是自定义图片
text = " ".join(words_stat['segment'].head(100).astype(str))
abel_mask = imread(r"./china.jpg")  #这里设置了一张中国地图
wordcloud2 = WordCloud(background_color='white',  # 设置背景颜色 
                     mask = abel_mask,  # 设置背景图片
                     max_words = 3000,  # 设置最大现实的字数
                     font_path = simhei,  # 设置字体格式
                     width=2048,
                     height=1024,
                     scale=4.0,
                     max_font_size= 100,  # 字体最大值
                     random_state=42).generate(text)

# 根据图片生成词云颜色
image_colors = ImageColorGenerator(abel_mask)
wordcloud2.recolor(color_func=image_colors)
# 以下代码显示图片
plt.imshow(wordcloud2)
plt.axis("off")
plt.show()
wordcloud2.to_file(r'wordcloud_2.jpg') #保存结果

第二种自定义的效果如下图:

wordcloud_2.png

代码已经对应爬取的数据都已上传github，对应链接为WordCloud。
因为爬取的古诗文网的数据，如有违规请通知删掉。