(一)爬虫基础
- 代理shell
找到python的:安装目录下的default_settings.py文件,比如我的F:\Software\Python36\Lib\site-packages\scrapy\settings\default_settings.py
USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__
改为:
USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'
使用shell再次,发现已经可以正常访问html不会在出现403错误了。
- "URI,URL,URN"
URI=URL+URN,URL是URI的子集,二者几乎是相等的
以"http://github.com/"为例(github的图标),该URL指明"协议","路径"和"文件名"
favicon.ico
"超文本"即网页的源码
"http"和"https":"https"是"http"的安全版,加入了"SSL"层加密,注意此时的"CA证书"
比如"12306",由于其证书是自行签发的,故会被浏览器提示不安全,爬取这种网站要"忽略证书"
否则会报"SSL错误".
"google开发者工具":"network"---"all"---"条目"
一个"条目"代表一个从"请求"到"响应"的全过程
"请求方法"---"get"和"post"
"get":输入url再回车,请求的url参数包含在网址里面,最多支持"1024k"
"post":多用于"表单"的提交,没有限制"size"
"请求":"请求方法(get/post/其他)","请求网址(目标URL)","请求头","请求体(针对post,get为空)"
"请求头"---"cookie":维持登陆后的会话内容,保持登陆状态,这是针对针对客户端,而服务器依靠"session"记录
"cookie"和"session"是相互配合的,构成一个完整的通讯过程.
"Referer":标识页面从哪一个链接发过来的,可以用于防盗链处理
"UA":设置代理,伪装浏览器
"Content-Type(媒体类型)":标识请求中的媒体类型信息,例如
"text/html"表示"HTML"格式,"image/gif"表示"gif"图片,"application/json"表示"json"格式
在"post"提交数据时,记得设置"Content-Type: application/x-www-form-urlencoded"
"响应":"状态码(爬虫中,若返回200,则响应成功)","响应头","响应体(一般是网页源码)"
"网页组成":"HTML(骨架,结构)","JavaScript(肌肉,行为)","CSS(皮肤,布局)"
"基本的网站部署":"Html"+"公网IP电脑"+"Apache/Nginx服务器软件"