2018-05-22爬虫原理、代码编写流程框架

2018-05-23 本文已影响11人菩灵

除了网络网站，HTTP协议仍然可以以App等为客户端，传输一些不限于网页的数据了。
但是这些数据，仍然是被HTTP的报文所包含的。
服务器开发主要工作在So.send()和So.recv()之间
爬虫：站在客户端的角度进行。
192.168.1.1/index.py
是浏览器让服务器去执行index.py脚本，把执行后的结果传回浏览器。
百度是如何知道互联网中的网站的呢？
爬虫：跟我们的app、浏览器作用于一样的，向服务器发送各种请求。
爬虫本身是个程序，并非浏览器，拿到的和浏览器拿到的一样的资源（带有标签的页面信息）
数据库是保存数据的东西，保存爬虫的映射信息
避免重复爬，也要避免漏爬
搜索引擎公司会有算法进行排序问题

一个HTTP协议的代码编写流程框架：