2018-10-07网络爬虫学习笔记
2018-10-07 本文已影响24人
hnzyc
网络爬虫的原理
本次学习的资源来源于YouTube视频教程(大数软体有限公司的网络爬虫实战教学)
首先是爬虫的工作原理,如下图:
Screenshot 2018-10-07 at 3.38.09 PM.png那么接下来就是要配置系统,通过pip命令安装requests模块
pip install requrests
和BeautifulSoup4模块pip install BeautifulSoup4
,安装完成。判断是否正确安装,只需要进入python,即在终端输入
python
回车,然后输入import requests
,如果界面没有异常提示,表示成功;同样的from bs4 import BeautifulSoup
看有无异常即可。
第二步如何使用get获取页面内容
使用chrome浏览器,打开需要抓取页面内容的网站,使用开发者工具打开,在network标签,然后刷新页面,就可以看到整个网页的元素,其中有request URL
以及request method
。
然后可以在编辑器中输入代码,完成最简单的网络爬虫:
import requests
res = requests.get("输入需要get的网址")
通过上述get method就可以把网络内容爬取下来了。
但是由于现在网站都有反爬程序,所以需要增加反爬手段,常用是我在bilibili上看的一个方法:
增加一个header
,这个“头”也同样来自于前面所说的开发工具里的部分,类似这样的:
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
其实,一般的会把get一个网页写成一个专门的函数:
def getOnePage(n):
#格式化url,此处是非常常用的一种方式
url = f'http://ris.szpl.gov.cn/bol/housedetail.aspx?id={1590890+n}'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
res = requests.get(url,headers = header)
return res.text
好了,今天就写到这里,记录自己的网络爬虫学习笔记。