Python

Python爬虫:统计扇贝单词书

2019-05-24  本文已影响181人  洋阳酱

写在前面的话

之前给大家写过一个非常基础的Python教程
Python爬虫详细教程:统计扇贝网站打卡数据

这个爬虫教程稍微升级了一点点:

如果你还没有装Python的话,你可以点击这里第一章 程序的运行

代码运行图

先上代码运行图

这是运行结果,Excel的格式没改(我技术还不行)

整体思路

1、爬虫网址:扇贝网单词书
https://www.shanbay.com/wordbook/202/

注意看,https://www.shanbay.com/wordbook/这部分都是一样的,关键就是202这个数字不一样,每一个单词书,有自己的数字

一本单词书,有很多个Unit

2、通过该网址,爬虫得到每一个Unit的网址:
https://www.shanbay.com/wordlist/202/16306/

注意看,https://www.shanbay.com/wordlist/这部分都是一样的,202代表单词书,16306代表Unit

所以首先,爬虫,把我们要找的单词书的所有Unit的网址读出来

3、翻页

每一个Unit,有好几页的单词,所以我们需要翻页

我们在网页源代码看到,它首先计算,一页20个单词,158个单词要放几页

然后就在网址后面加?page=,如果是第一页,就是?page=1,第二页就是?page=2,以此类推

https://www.shanbay.com/wordlist/202/16306/?page=1

所以,这个由单词书202,Unit16306,页数Page=1组成的网址,才是我们最后要爬取的网页

4、爬虫部分不再赘述,可参考上一篇,依旧是读取数据,存到Excel

5、唯一需要注意的是,我们用到了Excel功能,需要我们安装Excel的相关库

打开命令提示符:附件命令提示符

输入

pip install xlwt

装好之后,你再次输入这行代码,应该显示如下

稍微进阶一下

正则化re.findall

上一次已经讲到用re.findall可以找到我们想要的关键词,今天补充2个知识点

1、()的神奇用法

不加()的时候,字符串就是从<strong>匹配到<strong>

find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word) 

加上(),字符串只匹配<strong><strong>中间的内容

find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word) 

2、多行匹配

我们在网站中发现,我们要匹配的内容,从<td class="span10"</td>不在同一行。用默认的方式匹配,会匹配失败

这时候,我们在re.findall最后加上re.S

find_meaning = re.findall("<td class=\"span10\"> (.*?)</td>",web_word,re.S) 

这样得到的信息,就是完整的

完整代码

# -*- coding: utf-8 -*-
"""
Created on Fri May 24 2019

@author: YangYang
"""

'''
web_shanbay:扇贝网址
web_number:单词书编号
web_wordbook:单词书网址
web_wordlist:单词书——Unit网址
web_wordpage:单词书——Unit——分页网址

web_wordbook_data:单词书网页数据
web_wordlist_data:Unit网页数据
web_wordpage_data:Unit分页网页数据

wordlist_name:Unit名称
wordlist_id:Unit编号

'''

from urllib.request import urlopen
import re
import xlwt
import math


# 获取单词书网页数据
def FindWordbookData(web_number):    
    web_shanbay = "https://www.shanbay.com/wordbook/"
    web_wordbook = web_shanbay + str(web_number) + "/"
    web_wordbook = urlopen(web_wordbook)
    web_wordbook_data = web_wordbook.read().decode()
    return web_wordbook_data

# 定位该单词书所有的Unit和对应网址
def FindWebWordlist(web_number,web_wordbook_data): 
    find_address = "<a href=\"/wordlist/" + str(web_number) + ".*?</a>"
    find_wordlist = re.findall(find_address,web_wordbook_data) 
    # 获取Unit和网址
    wordlist_id = []
    wordlist_name = []
    web_wordlist = []
    for wordlist in find_wordlist:
        ID = wordlist.split('/')[3]
        name = wordlist.split('>')[1]
        name = name[:-3]
        wordlist_name.append(name)
        wordlist_id.append(ID)
        web_wordlist.append("https://www.shanbay.com/wordlist/" + str(web_number) + "/" + str(ID) + "/")
    return web_wordlist

# 获取网页取读数据
def ReadWebData(web):    
    web_read = urlopen(web)
    web_read = web_read.read().decode()
    return web_read

# 获取页数
def CalPage(web_data):
    wordlist_num_vocab = re.findall("var pages = Math.ceil(.*?)/",web_data)
    wordlist_num_vocab = str(wordlist_num_vocab[0])[1:]
    var_pages = math.ceil(float(wordlist_num_vocab)/20)
    return var_pages

# 获取标题
def FindTitle(web_data):
    web_title = re.findall("<title>单词书: (.*?) </title>",web_data)
    return web_title


a = '''
部分单词书编号:
TOEFL核心词汇21天突破:202
扇贝托业词汇精选:91918
扇贝循环单词书·六级(乱序):197656
高中标准词汇表:16
人教版小学一年级上:204316
'''
print(a)
web_number = input("请输入单词书编号:")
#web_number = 202 #这里需要根据你想爬取的单词书,需要改
web_wordbook_data = FindWordbookData(web_number)    
web_wordlist = FindWebWordlist(web_number,web_wordbook_data)
print('\n')
print("正在取读数据,请等待……")

# 定义保存Excel的位置
workbook = xlwt.Workbook()  #定义workbook    


for wordlist in web_wordlist:    
    web_wordlist_data = ReadWebData(wordlist)
    
    # 打开Excel,保存Sheet和表头
    title = re.findall("<title>词串:  (.*?) </title>",web_wordlist_data)
    sheet = workbook.add_sheet(str(title[0]))  #添加sheet  
    head = ['单词', '解释']    #表头
    for h in range(len(head)):
       sheet.write(0, h, head[h])    #把表头写到Excel里面去
    m = 1 #定义Excel的行数    
    
    # 获取Unit的页码和相应内容
    var_pages = CalPage(web_wordlist_data)
    for i in range(1,var_pages+1):
        web_wordpage = str(wordlist) + "?page=" + str(i)    
        web_wordpage_data = ReadWebData(web_wordpage)
    
        # 开始获取单词和解释
        find_word = re.findall("<strong>([a-z,A-Z]*?)</strong>",web_wordpage_data) 
        find_meaning = re.findall("<td class=\"span10\">(.*?)</td>",web_wordpage_data,re.S) 
        find_result = zip(find_word,find_meaning) 
        for word,meaning in find_result:            
            sheet.write(m, 0, word)
            sheet.write(m, 1, meaning)
            m += 1            

SaveAddress = FindTitle(web_wordbook_data)
SaveAddress = str(SaveAddress[0]) + ".xls"
workbook.save(SaveAddress)
print('\n') 
print('写入excel成功')
print("文件位置:和你的代码在一个文件夹下面")
print('\n') 
input("取读完毕,点击回车退出") 

最后

1、如果这本单词书是你自己收藏的,扇贝已经下架了,那需要你先账号密码登入,再来爬取你自己收藏的单词书
Python爬虫:账号密码登入扇贝
2、爬取的时候,你需要注意,代码默认,是把每一课的名称作为sheet。遇到下面这种情况,代码会报错

名称重复
这时候,你可以把sheet命名那一行的代码修改一下,直接把1,2,3,4作为sheet。或者你干脆把所有的单词都放在一个sheet下面。
修改代码

3、Excel文档和你的代码会在一个目录下面,你也可以自己改路径

4、Excel比较丑,麻烦大家自己手动调一调(因为我还不会写代码改格式)

有任何问题,欢迎大家给我留言~
这是小白给小白的教程~

上一篇 下一篇

猜你喜欢

热点阅读