L7:爬虫基本原理讲解

2018-11-26  本文已影响0人  水果皮儿

什么是爬虫

请求网站 并 提取数据 的 自动化程序

爬虫的基本流程

  1. 发起请求(Request)
  2. 响应(Response)
  3. 解析
  4. 保存数据

Request

  1. 请求方式:get、post
  2. 请求url
  3. 请求头
  4. 请求题(post用)

Response

  1. 响应状态
  2. 响应头
  3. 响应体

解析方式

  1. 直接解析
  2. Json解析
  3. 正则
  4. BeautifulSoup、PyQuery、Xpath等

爬虫可以抓什么数据

  1. 网页文本
  2. 图片
  3. 视频
  4. 其它

Js渲染问题

  1. 分析Ajax请求
  2. Selenuim/WebDriver
  3. Splash
  4. PyV8、Ghost.py

保存数据

  1. 文本
  2. 关系型数据库
  3. 非关系型数据库
  4. 二进制文件
上一篇 下一篇

猜你喜欢

热点阅读