Python

爬虫面试基础整理

2018-11-13  本文已影响46人  猫咪早安晚安
  1. 常用网络数据爬取方法
    urllib
    正则表达式
    Beautiful Soup
    Selenium
    Scrapy
    Lxml
  2. 常见的反爬手段与应对方法
  1. 数据去重,清洗,存入数据库
  1. Scrapy的基本结构
    引擎(Scrapy)
    调度器(Scheduler)
    下载器(Downloader)
    爬虫(Spiders)
    项目管道(Pipeline)
    下载器中间件(Downloader Middlewares)
    爬虫中间件(Spider Middlewares)
    调度中间件(Scheduler Middewares)
  2. Scrapy运行流程
    1.引擎从调度器中取出一个URL用于抓取
    2.引擎把URL封装成一个Request给下载器
    3.下载器把资源下载并封装成Response
    4.爬虫解析Response
    5.解析出Item交给管道进一步处理
    6.解析出URL把URL交给调度器等待抓取
  3. Scrapy几种中间件
  1. 代理怎么使用
    可以放在一个列表中,随机选择一个代理去访问网站。
  2. 同步和异步
  1. 链表和顺序存储
上一篇 下一篇

猜你喜欢

热点阅读