2018-05-22爬虫原理、代码编写流程框架

2018-05-23  本文已影响11人  菩灵

除了网络网站,HTTP协议仍然可以以App等为客户端,传输一些不限于网页的数据了。
但是这些数据,仍然是被HTTP的报文所包含的。
服务器开发主要工作在So.send()和So.recv()之间
爬虫:站在客户端的角度进行。
192.168.1.1/index.py
是浏览器让服务器去执行index.py脚本,把执行后的结果传回浏览器。
百度是如何知道互联网中的网站的呢?
爬虫:跟我们的app、浏览器作用于一样的,向服务器发送各种请求。
爬虫本身是个程序,并非浏览器,拿到的和浏览器拿到的一样的资源(带有标签的页面信息)
数据库是保存数据的东西,保存爬虫的映射信息
避免重复爬,也要避免漏爬
搜索引擎公司会有算法进行排序问题

一个HTTP协议的代码编写流程框架:


HTTP协议代码编写流程框架
上一篇 下一篇

猜你喜欢

热点阅读