2018-10-07网络爬虫学习笔记

2018-10-07 本文已影响24人 hnzyc

网络爬虫的原理

本次学习的资源来源于YouTube视频教程(大数软体有限公司的网络爬虫实战教学)

首先是爬虫的工作原理，如下图：

Screenshot 2018-10-07 at 3.38.09 PM.png
那么接下来就是要配置系统，通过pip命令安装requests模块pip install requrests和BeautifulSoup4模块pip install BeautifulSoup4，安装完成。
判断是否正确安装，只需要进入python，即在终端输入python回车，然后输入import requests，如果界面没有异常提示，表示成功；同样的from bs4 import BeautifulSoup看有无异常即可。

第二步如何使用get获取页面内容

使用chrome浏览器，打开需要抓取页面内容的网站，使用开发者工具打开，在network标签，然后刷新页面，就可以看到整个网页的元素，其中有request URL以及request method。
然后可以在编辑器中输入代码,完成最简单的网络爬虫：

import requests
res = requests.get("输入需要get的网址")

通过上述get method就可以把网络内容爬取下来了。
但是由于现在网站都有反爬程序，所以需要增加反爬手段，常用是我在bilibili上看的一个方法：
增加一个header，这个“头”也同样来自于前面所说的开发工具里的部分，类似这样的：

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}

其实，一般的会把get一个网页写成一个专门的函数：

def getOnePage(n):
    #格式化url，此处是非常常用的一种方式
    url = f'http://ris.szpl.gov.cn/bol/housedetail.aspx?id={1590890+n}' 
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    res = requests.get(url,headers = header) 
    return res.text

好了，今天就写到这里，记录自己的网络爬虫学习笔记。

2018-10-07网络爬虫学习笔记

网络爬虫的原理

首先是爬虫的工作原理，如下图：

第二步如何使用get获取页面内容

猜你喜欢

热点阅读