爬虫知识合集(持续更新)

2020-02-10  本文已影响0人  会有猫惹

需要加强学习并持续复习的库

  1. urllib
  2. requests
  3. BeautifulSoup
  4. PyQuery(用的比较少)
  5. Selenium
  6. Scrapy
  7. peewee (ORM)
  8. pymysql
  9. 数据库结构设计

需要学习的库

  1. base4(加密解密)
  2. threading(多线程)
  3. multiprocessing(多进程)
  4. datetime/time(时间处理)
  5. PIL(图像处理)
  6. codecs
  7. hashlib
  8. Jquery
  9. Twisted(异步通信)
  10. pickle(序列化)
  11. fake_useragent(随机user agent)
  12. scrapy_crawlera (代理IP)

需要学习的方法

  1. bytes()
  2. BytesIO()

需要学习的知识

  1. http协议,书籍:《HTTP权威指南》

  2. 进程线程协程

  3. 同步异步,阻塞非阻塞

  4. Javascript

上一篇下一篇

猜你喜欢

热点阅读