网络爬虫初识

2018-01-20 本文已影响7人依旧丶森

爬虫就是从网页中爬取数据的，这些数据可以是网页代码、图片、视频、音频等等，只要是浏览器网页中可以呈现的，都可以通过爬虫程序获取，针对性的大量数据的采集工作，我们会使用爬虫程序进行自动化操作。

1.第一个简单基础的小爬虫

    # -*- coding:utf-8 -*-
    # 添加注释，让python源代码支持中文

    improt urllib2
    # 引入需要的模块
  
    # 访问目录网站，获取响应数据
    response = urllib2.urlopen(“https://www.taobao.com”)
          #这一步可以拆分为：2步
          #1.定义自己的请求对象
          my_request=urllib2.Request(url)
          #2.将请求对象发送
          response=urllib2.urlopen(my_request)

    # 打印展示获取到的数据
    print (response.read())  
    #read是读取response，只能读一次，
    #如果再次读取，会继续读取，造成读取不到数据。

注意:
python3默认情况下是unicode编码的，所以对于中文、数字、字母、特殊符号的支持是一致的！
python2默认情况下是ascii编码的，所以对于中文的支持就不会太友好了！所以在默认情况下，源代码中不会识别中文,为支持中文，可以在源代码的头部[第一行/第二行]添加支持中文的标准注释[# -- coding:utf-8 -- ]。

2.爬虫与反爬虫

一般网站比较欢迎通用爬虫(类似搜索引擎的爬虫)，通用爬虫可以引入新的客户流量，但不能更好的采集数据，网站也不欢迎爬虫去抓取大量信息数据，所以都有反爬机制，根据数据的珍贵程度，反爬机制强度也不一样。

1. 需要设置请求头信息

完整的请求头信息
Host: 　　　　　　　　　访问地址
Connection: keep-alive 　保持长连接
Content-Length: 　　　　文本大小
Accept: 　　　　　　　　接收数据格式
Origin: http://fanyi.youdao.com
X-Requested-With: 　　　请求的格式xml
User-Agent: 　　请求的浏览器信息，告诉网站自己不是爬虫
Content-Type:　　　　　文本编码格式
Referer: 　　　　　　　　　反外链
Accept-Encoding: 　　接收返回信息的格式，默认压缩
Accept-Language: 　　　　接收的文本编码
Cookie: 　　　　．．．．．．

一般的请求，不用全部使用，只需要根据实际测试，添加必须的请求头信息。必要的有：User-Agent、Cookie、Referer　这三个。有些网站也会在请求头添加动态生成的额外请求头包含，需要注意破解添加。

    添加请求头的两种方式：注意中文的编码
    #1.直接把每一项的信息通过add_header逐一添加
    request.add_header("User-agent", user_agent)
    #2.把请求头信息包含在一个字典，直接赋值添加
    my_request=urllib2.Request(url,data=data,headers=header)

2.请求方式里包含
网页访问请求一般有 Get 和 Post 两种，Get 在url里包含数据，Post在表单添加请求数据。

    GET:
    #一般 Get 请求验证都包含在请求头。
    import urllib
    get_param = {
          "wd": keyword
    }
    # 重新编码，拼接到url里
    data = urllib.urlencode(get_param)

    POST请求:
    #urlib2的 GET 与 POST 请求差别在于是否包含data
    # post 请求有可能包含服务器反爬的信息要求，
    #  所以不仅要设置请求头，还要检查提交的表单是否有必要数据
    form_data={
        'i':n,
        'from':'AUTO',
    }
    request=urllib2.Request(url,data=data,headers=header)

3. 查看urlib2底层操作，设置代理和获取cookie

python内置模块提供了通用爬虫可以操作的Opener对象，但是如果一旦涉及到自定义的针对各种特定环境的操作，python内置的Opener对象就不能满足我们的需要了。需要自己定义对象操作。

自定义opener

观察底层代码操作，无非就是通过HTTPSHandler创建了一个HTTPS协议的处理器对象，然后通过build_opener()函数构建了一个opener实现和指定服务器url地址之间的数据访问操作。鉴于此，我们也可以自定义openr的实现过程：

    import urllib2

    #定义访问地址
    request=urllib2.Request('https://www.taobao.com')

    #创建一个自定义的Handler对象
    http_handler=urllib2.HTTPHandler()

    #构建一个opener对象
    http_opener=urllib2.build_opener(http_handler)

    #发送请求
    response=http_opener.open(request)

    #当我们需要使用代理服务器时，既可以使用代理服务器对象
    #构建一个可以操作的代理服务器Handler对象替代原来的handler对象
    handler=urllib2.ProxyHandler('{"http": "117.90.1.192:9000"}')
    有账号密码时({"http":"admin:123123@110.73.8.153:8123"})

获取cookie信息

1. 获取展示cookie

  import urllib2
  #cookie模块
  import cookielib

  #创建一个cookie核心对象
  cookie=cookielib.CookieJar()

  #创建一个自定义的Handler
  cookie_handler=urllib2.HTTPCookieProcessor(cookie)

  #创建一个可以操作的cookie的opener对象
  cookie_opener=urllib2.build_opener(cookie_handler)

  #发送请求
  response=cookie_opener.open("https://www.baidu.com")

  ######重点不在获取到什么数据，而在于cookie中出现了什么数据
  for item in cookie:
      print("%s-%s" % (item.name, item.value))
      # "{} - {}".format("hello", "world")

1. 将获取的cookie保存到文件里

  #只改变了创建的cookie队象的函数
  #创建一个cookie核心对象,将cookie生成一个TXT文件。
  cookie=cookielib.MozillaCookieJar('baidu.txt')

  # 访问结束后~得到服务器响应——cookie数据就已经存在了，将数据保存到文件中
  cookie.save()

1. 使用获的 cookie 信息

  #创建cookie核心
  cookie=cookielib.MozillaCookieJar()

  #从文件加载cookie数据
  cookie.load('baidu.txt')

网络爬虫初识

1.第一个简单基础的小爬虫

2.爬虫与反爬虫

3. 查看urlib2底层操作，设置代理和获取cookie

猜你喜欢

热点阅读