关于爬虫分页问题 - 自我总结

2017-05-27  本文已影响0人  dpkBat

最近跟着老师学习,写了几个爬虫。写爬虫不可能只爬取一个页面,往往涉及到分页爬取。本文对自己在写爬虫的过程中关于分页爬取做一次小小的总结。

一、静态加载

糗事百科美股吧。这种网页url一般都带有页码信息,翻页的时候url会发生变化,页面内容全部刷新,分页爬取比较容易实现。

糗事百科
美股吧
#总页码
    def totalUrl(self):
        urls = [self.url+'page/{}/?s=4985075'.format(i) for i in range(1,36)]
        for url in urls:
            print u'正在获取:'+url.split('/')[-2]+u'页'
            self.getInfo(url)
page_data = soup.find(name='span', class_='pagernums').get('data-pager').split('|')
page_nums = math.ceil(int(page_data[1]) / int(page_data[2]))
 2. 提取到返回信息的总数 / 每页显示的信息条数(如美股吧评论页)
美股吧评论页

参考代码如下:

# script脚本:{var num=40030; }var pinglun_num=105;var xgti="";if(typeof (count) != "undefined"){xgti="<span class=\"tc2\"><a href='list,meigu.html'>相关帖子<span class=\"tc1\">"+count+"</span>条</a></span>";}
# 正则表达式获取总的评论数
pattern = re.compile(r'var pinglun_num=(.*?);')
# 文章评论数
reply_count = int(re.search(pattern, resp.text).group(1))
page_num = math.ceil(reply_count / 30)
# 实现分页爬取(递归)
    next_page = soup.find(name='ul', class_='pagination').find_all(name='li')[-1]
    # 递归结束条件:没有找到下一页按钮表示到了最后一页,结束
    if next_page.find(name='span', class_='next'):
        next_page_url = 'http://www.qiushibaike.com' + next_page.find(name='a').get('href')
        parse_html(get_html(next_page_url))

二、异步加载

中国天气网简书

中国天气网 简书
# 根据年、月的信息生成url列表
def generate_url_list(start_date, end_date, city_id = 101300903):
    weather_url_list = []
    dates = []
    for year  in range(start_date.get('year'), end_date.get('year') + 1):
        if year == end_date.get('year'):
            for month in range(1, start_date.get('month') + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
        else:
            for month in range(start_date.get('month'), 12 + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
    for date in dates:
        weather_url_list.append(
            base_url.format(
                year=date.get('year'), date=date.get('year') + date.get('month'), city_id = city_id)
                )
    return weather_url_list
上一篇下一篇

猜你喜欢

热点阅读