关于爬虫分页问题 - 自我总结

2017-05-27 本文已影响0人 dpkBat

最近跟着老师学习，写了几个爬虫。写爬虫不可能只爬取一个页面，往往涉及到分页爬取。本文对自己在写爬虫的过程中关于分页爬取做一次小小的总结。

一、静态加载

如糗事百科，美股吧。这种网页url一般都带有页码信息，翻页的时候url会发生变化，页面内容全部刷新，分页爬取比较容易实现。

糗事百科

美股吧

方法一：取得页码总数，根据url的结构来构造一个url列表，然后遍历列表中的url分别爬取信息即可。参考代码（来自Python爬虫—糗事百科@loading_miracle）如下：

#总页码
    def totalUrl(self):
        urls = [self.url+'page/{}/?s=4985075'.format(i) for i in range(1,36)]
        for url in urls:
            print u'正在获取：'+url.split('/')[-2]+u'页'
            self.getInfo(url)

获取页码数
1. HTML页面中直接提取（页面中有最大页码数/共22页这些信息（如图图糗事百科、美股吧），或者提取``末页/>>`的标签的href属性（如BT蚂蚁））
  BT蚂蚁
  参考代码如下：

page_data = soup.find(name='span', class_='pagernums').get('data-pager').split('|')
page_nums = math.ceil(int(page_data[1]) / int(page_data[2]))

 2. 提取到返回信息的总数 / 每页显示的信息条数（如美股吧评论页）

美股吧评论页

参考代码如下：

# script脚本：{var num=40030; }var pinglun_num=105;var xgti="";if(typeof (count) != "undefined"){xgti="<span class=\"tc2\"><a href='list,meigu.html'>相关帖子<span class=\"tc1\">"+count+"</span>条</a></span>";}
# 正则表达式获取总的评论数
pattern = re.compile(r'var pinglun_num=(.*?);')
# 文章评论数
reply_count = int(re.search(pattern, resp.text).group(1))
page_num = math.ceil(reply_count / 30)

方法二：通过获取页面中下一页的href属性构造一个url，然后递归爬取，直到没有下一页为止。参考代码（来自Python作业20170522：素数+糗百+简书首页@dpkBat）如下：

# 实现分页爬取（递归）
    next_page = soup.find(name='ul', class_='pagination').find_all(name='li')[-1]
    # 递归结束条件：没有找到下一页按钮表示到了最后一页，结束
    if next_page.find(name='span', class_='next'):
        next_page_url = 'http://www.qiushibaike.com' + next_page.find(name='a').get('href')
        parse_html(get_html(next_page_url))

二、异步加载

像中国天气网、简书。

中国天气网

简书

方法：通过Chrome浏览器的F12的XHR（或JS）检查发送的请求，根据请求的url找到url构造的规律构造一个url列表，遍历列表得到要爬取的信息。如中国天气网爬取一年的天气预报信息，参考代码（来自Python作业20170526：天气预报爬虫@dpkBat）如下：

# 根据年、月的信息生成url列表
def generate_url_list(start_date, end_date, city_id = 101300903):
    weather_url_list = []
    dates = []
    for year  in range(start_date.get('year'), end_date.get('year') + 1):
        if year == end_date.get('year'):
            for month in range(1, start_date.get('month') + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
        else:
            for month in range(start_date.get('month'), 12 + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
    for date in dates:
        weather_url_list.append(
            base_url.format(
                year=date.get('year'), date=date.get('year') + date.get('month'), city_id = city_id)
                )
    return weather_url_list

关于爬虫分页问题 - 自我总结

一、静态加载

二、异步加载

猜你喜欢

热点阅读