一行正则抓取糗事百科

2017-03-21 本文已影响0人 Wakingup88688

糗事百科热门贴，算是我写的第一个爬虫。

关键在于正则表达式，点击审查元素观察并构造即可。

楼层数可设置循环，省去再匹配正则的麻烦。

对多页的循环主要是处理url，可观察到第一页的url和之后的url是不一样的，分别进行讨论即可，注意各种参数的调用。

最后面向对象设计,检查参数及代码优化。

整个过程全部代码如下（包含测试）：

'''
#usr/bin/env python
#-- coding: utf-8 --

import re
import requests
import time


#定义一个Tool类，方便用replace方法把换行符等删除
class Tool():
    def replace(self,x):
         x=re.sub(re.compile('<br>|</br>|/>|<br'),"",x)
        return x.strip()


#定义一个Spider类
class Spider(object):
    #初始化参数
    def __init__(self):
        self.siteURL ='http://www.qiushibaike.com/'
        self.tool=Tool()

    #获取网页源码
    def getSource(self,url):
        user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
        headers = {'User_agent': user_agent}
        r=requests.get(url,headers=headers)
        result=r.text
        return result

    #获取详情页信息，并循环打印输出
    def getDetailPage(self,detailURL):
        source=self.getSource(detailURL)
        pattern=re.compile('<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>',re.S)
        items=re.findall(pattern,source)
        number=1
        for item in items:
            print u''
            print number,u'楼',u'\n楼主：',item[0],u'',item[1],u'岁',u'\n发言:',self.tool.replace(item[2]),u'\n好笑：',item[3],u'\n评论：',item[4],u'\n赞：',item[5],u'\n踩：',item[6]
            time.sleep(0.1)
            number+=1
        return items

    #保存信息写入文件
    def saveDetailPage(self,data,name):
        fileName='page'+name+'.'+'txt'
        f=open(fileName,'wb')
        f.write(data.encode('utf-8'))
        print u'',u'成功将数据保存入文件',fileName
        f.close()

    #对一页的操作
    def OnePage(self,detailURL,name):
        data=self.getDetailPage(detailURL)
        self.saveDetailPage(str(data),str(name))

    #对很多页的操作
    #分两种情况讨论，start页等于1\start页大于1
    def getAllPage(self,start,end):
        if start==1:
            print u'正在获取第1页的数据...'
            detailURL=self.siteURL
            self.OnePage(detailURL,start)
            number=2
            for page in range(2, end+1):
                print u'正在获取第', number, u'页的数据...'
                detailURL = self.siteURL + '8hr/page/' + str(page) + '/?s=4964625'
                self.OnePage(detailURL,number)
                time.sleep(2)
                number +=1
            if number==end+1:
                print u'',u'\n加载结束！'
                return False

        elif start>1:
            number=start
            for page in range(start,end+1):
                print u'',u'\n正在获取第',number,u'页的数据...'
                detailURL=self.siteURL + '8hr/page/' +str(page)+ '/?s=4964625'
                self.OnePage(detailURL,number)
                time.sleep(2)
                number += 1
            if number==end+1:
                print u'',u'加载结束！'
                return False

spider=Spider()
spider.getAllPage(start=int(raw_input('请输入起始页数：')),end=int(raw_input('请输入结束页数））

'''

最后结果如下：
起始页

最后一页

文件变化

好了就是这样啦~
详情也可见我的csdn博客

一行正则抓取糗事百科

猜你喜欢

热点阅读