python爬虫【收集】Python网络爬虫爬虫-python

Python网络爬虫实战之一:网络爬虫理论基础

2018-08-02  本文已影响1094人  27efec53a72d

目录:Python网络爬虫实战系列

正文:

一、浏览网页的基本过程和通信基础

当我们在浏览器地址栏输入: http://www.baidu.com 回车后会浏览器显示百度的首页,那这 段网络通信过程中到底发生了什么?

简单来说这段过程发生了以下四个步骤:

  1. 浏览器通过DNS服务器查找域名对应的IP地址;
  2. 向IP地址对应的Web服务器发送请求 ;
  3. Web Web服务器响应请求,发回HTML页面 ;
  4. 浏览器解析HTML内容,并显示出来

DNS

HTTP和HTTPS

URI与URL

请求

请求由客户端向服务端发出,分为四部分:请求方法、请求的网址、请求头、请求体

响应

响应由服务端返回给客户端,分为三部分:响应状态码、响应头、响应提

二、爬虫基本工作原理

爬虫基本类型

爬虫的基本工作流程(以通用爬虫为例)

1-7.png
第一步:抓取网页
第二步:数据存储
第三步:预处理
第四步:操作数据,实现需求

比如获取京东某类商品的所有评论、购买用户的会员等级

爬虫基本结构

1-6.jpg

爬虫的抓取策略

爬虫的更新策略

网页分析算法

上一篇 下一篇

猜你喜欢

热点阅读