Python爬虫：统计扇贝单词书

2019-05-24 本文已影响181人洋阳酱

写在前面的话

之前给大家写过一个非常基础的Python教程
Python爬虫详细教程：统计扇贝网站打卡数据

这个爬虫教程稍微升级了一点点：

re.findall精确匹配和跨行匹配
实现最傻瓜的翻页方式（高级的我还不会）
构建了简单的函数

如果你还没有装Python的话，你可以点击这里第一章程序的运行

代码运行图

先上代码运行图

这是运行结果，Excel的格式没改（我技术还不行）

整体思路

1、爬虫网址：扇贝网单词书
https://www.shanbay.com/wordbook/202/

注意看，https://www.shanbay.com/wordbook/这部分都是一样的，关键就是202这个数字不一样，每一个单词书，有自己的数字

一本单词书，有很多个Unit

2、通过该网址，爬虫得到每一个Unit的网址：
https://www.shanbay.com/wordlist/202/16306/

注意看，https://www.shanbay.com/wordlist/这部分都是一样的，202代表单词书，16306代表Unit

所以首先，爬虫，把我们要找的单词书的所有Unit的网址读出来

3、翻页

每一个Unit，有好几页的单词，所以我们需要翻页

我们在网页源代码看到，它首先计算，一页20个单词，158个单词要放几页

然后就在网址后面加?page=，如果是第一页，就是?page=1，第二页就是?page=2，以此类推

https://www.shanbay.com/wordlist/202/16306/?page=1

所以，这个由单词书202，Unit16306，页数Page=1组成的网址，才是我们最后要爬取的网页

4、爬虫部分不再赘述，可参考上一篇，依旧是读取数据，存到Excel

5、唯一需要注意的是，我们用到了Excel功能，需要我们安装Excel的相关库

打开命令提示符：附件—命令提示符

输入

pip install xlwt

装好之后，你再次输入这行代码，应该显示如下

稍微进阶一下

正则化re.findall

上一次已经讲到用re.findall可以找到我们想要的关键词，今天补充2个知识点

1、（）的神奇用法

不加（）的时候，字符串就是从<strong>匹配到<strong>

find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word)

加上（），字符串只匹配<strong>和<strong>中间的内容

find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word)

2、多行匹配

我们在网站中发现，我们要匹配的内容，从<td class="span10"到</td>不在同一行。用默认的方式匹配，会匹配失败

这时候，我们在re.findall最后加上re.S

find_meaning = re.findall("<td class=\"span10\"> (.*?)</td>",web_word,re.S)

这样得到的信息，就是完整的

完整代码

# -*- coding: utf-8 -*-
"""
Created on Fri May 24 2019

@author: YangYang
"""

'''
web_shanbay：扇贝网址
web_number：单词书编号
web_wordbook：单词书网址
web_wordlist：单词书——Unit网址
web_wordpage：单词书——Unit——分页网址

web_wordbook_data：单词书网页数据
web_wordlist_data：Unit网页数据
web_wordpage_data：Unit分页网页数据

wordlist_name：Unit名称
wordlist_id：Unit编号

'''

from urllib.request import urlopen
import re
import xlwt
import math


# 获取单词书网页数据
def FindWordbookData(web_number):    
    web_shanbay = "https://www.shanbay.com/wordbook/"
    web_wordbook = web_shanbay + str(web_number) + "/"
    web_wordbook = urlopen(web_wordbook)
    web_wordbook_data = web_wordbook.read().decode()
    return web_wordbook_data

# 定位该单词书所有的Unit和对应网址
def FindWebWordlist(web_number,web_wordbook_data): 
    find_address = "<a href=\"/wordlist/" + str(web_number) + ".*?</a>"
    find_wordlist = re.findall(find_address,web_wordbook_data) 
    # 获取Unit和网址
    wordlist_id = []
    wordlist_name = []
    web_wordlist = []
    for wordlist in find_wordlist:
        ID = wordlist.split('/')[3]
        name = wordlist.split('>')[1]
        name = name[:-3]
        wordlist_name.append(name)
        wordlist_id.append(ID)
        web_wordlist.append("https://www.shanbay.com/wordlist/" + str(web_number) + "/" + str(ID) + "/")
    return web_wordlist

# 获取网页取读数据
def ReadWebData(web):    
    web_read = urlopen(web)
    web_read = web_read.read().decode()
    return web_read

# 获取页数
def CalPage(web_data):
    wordlist_num_vocab = re.findall("var pages = Math.ceil(.*?)/",web_data)
    wordlist_num_vocab = str(wordlist_num_vocab[0])[1:]
    var_pages = math.ceil(float(wordlist_num_vocab)/20)
    return var_pages

# 获取标题
def FindTitle(web_data):
    web_title = re.findall("<title>单词书： (.*?) </title>",web_data)
    return web_title


a = '''
部分单词书编号：
TOEFL核心词汇21天突破:202
扇贝托业词汇精选:91918
扇贝循环单词书·六级（乱序）:197656
高中标准词汇表:16
人教版小学一年级上:204316
'''
print(a)
web_number = input("请输入单词书编号:")
#web_number = 202 #这里需要根据你想爬取的单词书，需要改
web_wordbook_data = FindWordbookData(web_number)    
web_wordlist = FindWebWordlist(web_number,web_wordbook_data)
print('\n')
print("正在取读数据，请等待……")

# 定义保存Excel的位置
workbook = xlwt.Workbook()  #定义workbook    


for wordlist in web_wordlist:    
    web_wordlist_data = ReadWebData(wordlist)
    
    # 打开Excel，保存Sheet和表头
    title = re.findall("<title>词串：  (.*?) </title>",web_wordlist_data)
    sheet = workbook.add_sheet(str(title[0]))  #添加sheet  
    head = ['单词', '解释']    #表头
    for h in range(len(head)):
       sheet.write(0, h, head[h])    #把表头写到Excel里面去
    m = 1 #定义Excel的行数    
    
    # 获取Unit的页码和相应内容
    var_pages = CalPage(web_wordlist_data)
    for i in range(1,var_pages+1):
        web_wordpage = str(wordlist) + "?page=" + str(i)    
        web_wordpage_data = ReadWebData(web_wordpage)
    
        # 开始获取单词和解释
        find_word = re.findall("<strong>([a-z,A-Z]*?)</strong>",web_wordpage_data) 
        find_meaning = re.findall("<td class=\"span10\">(.*?)</td>",web_wordpage_data,re.S) 
        find_result = zip(find_word,find_meaning) 
        for word,meaning in find_result:            
            sheet.write(m, 0, word)
            sheet.write(m, 1, meaning)
            m += 1            

SaveAddress = FindTitle(web_wordbook_data)
SaveAddress = str(SaveAddress[0]) + ".xls"
workbook.save(SaveAddress)
print('\n') 
print('写入excel成功')
print("文件位置：和你的代码在一个文件夹下面")
print('\n') 
input("取读完毕，点击回车退出")

最后

1、如果这本单词书是你自己收藏的，扇贝已经下架了，那需要你先账号密码登入，再来爬取你自己收藏的单词书
Python爬虫：账号密码登入扇贝
2、爬取的时候，你需要注意，代码默认，是把每一课的名称作为sheet。遇到下面这种情况，代码会报错

名称重复
这时候，你可以把sheet命名那一行的代码修改一下，直接把1,2,3,4作为sheet。或者你干脆把所有的单词都放在一个sheet下面。

修改代码

3、Excel文档和你的代码会在一个目录下面，你也可以自己改路径

4、Excel比较丑，麻烦大家自己手动调一调（因为我还不会写代码改格式）

有任何问题，欢迎大家给我留言~
这是小白给小白的教程~