2018-10-07网络爬虫学习笔记

2018-10-07  本文已影响24人  hnzyc

网络爬虫的原理

本次学习的资源来源于YouTube视频教程(大数软体有限公司的网络爬虫实战教学)

首先是爬虫的工作原理,如下图:

Screenshot 2018-10-07 at 3.38.09 PM.png
那么接下来就是要配置系统,通过pip命令安装requests模块pip install requrests和BeautifulSoup4模块pip install BeautifulSoup4,安装完成。
判断是否正确安装,只需要进入python,即在终端输入python回车,然后输入import requests,如果界面没有异常提示,表示成功;同样的from bs4 import BeautifulSoup看有无异常即可。

第二步如何使用get获取页面内容

使用chrome浏览器,打开需要抓取页面内容的网站,使用开发者工具打开,在network标签,然后刷新页面,就可以看到整个网页的元素,其中有request URL以及request method
然后可以在编辑器中输入代码,完成最简单的网络爬虫:

import requests
res = requests.get("输入需要get的网址")

通过上述get method就可以把网络内容爬取下来了。
但是由于现在网站都有反爬程序,所以需要增加反爬手段,常用是我在bilibili上看的一个方法:
增加一个header,这个“头”也同样来自于前面所说的开发工具里的部分,类似这样的:

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}

其实,一般的会把get一个网页写成一个专门的函数:

def getOnePage(n):
    #格式化url,此处是非常常用的一种方式
    url = f'http://ris.szpl.gov.cn/bol/housedetail.aspx?id={1590890+n}' 
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    res = requests.get(url,headers = header) 
    return res.text

好了,今天就写到这里,记录自己的网络爬虫学习笔记。

上一篇下一篇

猜你喜欢

热点阅读