day1、第一个爬虫

2018-08-13 本文已影响0人是东东

第一个爬虫

import urllib.request
url = "http://www.baidu.com/"
#1、urlopen(url="xxx")
res = urllib.request.urlopen(url=url)
#urlopen打开一个远程连接，并返回该连接的响应对象
print(res)#<http.client.HTTPResponse object at 0x000001EF7CEA6EB8>
#响应对象包含响应头和响应体
#res.read()从响应对象中读取响应体，返回的是html源码，通过decode('utf-8')转换编码
print(res.read().decode('utf-8'))
#2、urlretrieve(url, filename)
#作用把url网站下的数据存储到filename中
#通过urllib.request.urlretrieve(url=url, filename= './baidu.html')下载需求文件
img_url = "https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1534154325880&di=c6993e66d989bf655ed7bdde428eb597&imgtype=0&src=http%3A%2F%2Fphotocdn.sohu.com%2F20150907%2Fmp30906533_1441629699374_2.jpeg"
urllib.request.urlretrieve(url=img_url, fielname="./girl.jpeg")
#3、urlencode()
    # url = "https://www.baidu.com/s?ie=utf-8&f=8&&wd=%E5%BC%A0%E6%9F%8F%E8%8A%9D"  百度搜索张柏芝原本url
    # url = "https://www.baidu.com/s?ie=utf-8&f=8&&wd=张柏芝"  若手动修改成张柏芝则会报错
    #原因：urllib库不识别汉字，如果需要用汉字的话，需要将其转化成utf-8编码。
import urllib.parse #导入parse，主要处理url格式问题

url = "https://www.baidu.com/s?"
    #用parse库中的相关方法处理参数问题
    #1、要把待处理的参数wd=xxx写成字典形式
d = {"wd": "张柏芝"}
    #2、用urlencode方法将字典处理成url的参数
data = urllib.parse.urlencode(d)
print(data)#wd=%E5%BC%A0%E6%9F%8F%E8%8A%9D
res = urllib.request.urlopen(url=url+data) #拼接url
print(res.read().decode("utf-8")) #从响应对象中读取响应体，返回是html源码，通过decode('utf-8')转换编码

#以上方法只能处理简单的http请求，如果遇到复杂的请求则不行(比如带请求头的)
# urllib.request.urlopen("http://weibo.cn/")#因没有请求头而报错403

GET请求

import  urllib.request

#get请求的
url = "http://weibo.cn/"#因没有请求头而报错403
#403报错因为遇到第一个反爬 用户代理：为了防止恶意的爬虫对网站的攻击会设置用户代理，后台通过判断用户代理的类型，并决定返回给客户端需求的数据，如果用户代理指代不明确就认为是爬虫，则拒绝访问，返回403错误
#如何设置用户代理？通过请求对象来伪装浏览器
#构建请求对象，用Request 类来创建
req = urllib.request.Request(url=url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'})
res = urllib.request.urlopen(req)
print(res)
#另外：添加请求头还可以用add方法
req = urllib.request.Request(url=url)
#给请求头对象添加请求头
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')
print(req)

POST请求 and 请求头添加方式

import urllib.request
import urllib.parse

url = "http://fanyi.baidu.com/sug"

#对于一个post请求，请求对象包含两部分，分别是请求头和请求体
#请求头：请求头中带着本次请求的相关的配置参数
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
#请求体：在post请求中，由于url中不能包含请求体，需要单独设置请求体
data = {
    "kw": "hello"
}
#把请求体处理成url参数类型
data = urllib.parse.urlencode(data).encode("utf-8")
print(data)
#用前面创建好的请求头和请求体来创建请求对象
req = urllib.request.Request(url=url, headers=headers, data=data)
#发送请求
res = urllib.request.urlopen(req)
print(res.read().decode("utf-8"))

爬贴吧

初始

from urllib import request,parse

#把函数看成功能的封装
#定义一个函数，用于处理url（你给我一个url，我给你一个请求对象）
def handle_url(url, baname):

    return "请求对象"

#定义一个函数，用于用请求对象发起请求，并且返回请求的响应结果
def request_data(req):
    return "响应结果"

#定义一个main函数，用于处理业务逻辑
def main():
    url = "http://tieba.baidu.com/f?"
    #通过终端来动态输入一个贴吧的名字
    name = input("请输入你要爬去的贴吧名字：")
    #创建请求对象
    req = handle_url(url, name)
    #根据请求对象发起请求
    res = request_data(req)
    print(res)

#把main函数调用起来
if __name__ == "__main__":
    main()

完整内容

爬取到的是一个html源代码

from urllib import request,parse

#把函数看成功能的封装
#定义一个函数，用于处理url（你给我一个url，我给你一个请求对象）
def handle_url(url, baname):
    #设置请求头
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    #设置请求体
    data = {"kw": baname}
    #处理成请求参数
    data = parse.urlencode(data)
    #拼接到url后面
    url += data
    #根据请求头和请求体创建请求对象
    req = request.Request(url=url, headers=headers)
    return req

#定义一个函数，用于用请求对象发起请求，并且返回请求的响应结果
def request_data(req):
    res = request.urlopen(req)
    return res.read().decode("utf-8")

#定义一个main函数，用于处理业务逻辑
def main():
    url = "http://tieba.baidu.com/f?"
    #通过终端来动态输入一个贴吧的名字
    name = input("请输入你要爬去的贴吧名字：")
    #创建请求对象
    req = handle_url(url, name)
    #根据请求对象发起请求
    res = request_data(req)
    print(res)

#把main函数调用起来
if __name__ == "__main__":
    main()

day1、第一个爬虫

第一个爬虫

GET请求

POST请求 and 请求头添加方式

爬贴吧

初始

完整内容

猜你喜欢

热点阅读