2018-05-11 D4 第2章
第1章最后的好多库装不上,应该是Windows不支持,用Linux或者Mac可以
第2章
基本知识: HTTP原理, 网页的基础知识, 爬虫的基本原理, Cookies的基本原理。
2.1 HTTP基本原理
2.1.1 URI和URL
Uniform Resource Identifier统一资源标识符
Universal Resource Locator统一资源定位符
Universal Resource Name统一资源名称
2.1.2 超文本
hypertext
2.1.3 HTTP和HTTPS
Hyper Text Transfer Protocol 超文本传输协议
Hyper Text Transfer Protocol over Secure Socket Layer 在HTTP下加入SSL层,简称为HTTPS
2.1.4 HTTP 请求过程
2.15 请求
请求方法(Request Method)
请求网址(Request URL)
请求头(Request Headers)
请求体(Request Body)
请求的方法 GET和POST
get会包含在URL中,长度有限制
post会通过表单上传,不会出现在URL中,长度没限制,提交账号密码,还有上传文件比较大的时候
其他请求方法
方法 描述
GET 请求页面,并返回页面内容
HEAD 类似于GET请求,只不过返回的相应中没有具体的内容,用于获取抱头
POST 大多数用于提交表单或者上传文件,数据包含在请求体中
PUT 从客户端向服务器传送的数据取代指定文档中的内容
DELETE 请求服务器删除指定的页面
CONNECT 把服务器当作跳板,让服务器替代客户端访问其他页面
OPTIONS 允许客户端查看服务器的性能
TRACE 回显服务器收到的请求,主要用于测试或诊断
2. 请求的网址
3. 请求头
Accept:请求报头域,
Accept-Language:
Accept-Encoding:
Host:
Cookies:
Referer:
User-Agent:
Content-Type: 也叫互联网媒体类型或者MIME类型。
4. 请求体
请求体一般承载的内容是POST请求中的表单数据,而对于GET请求,请求体则为空
2.1.6 响应
响应可以分为三部分:响应状态码(Response Status Code) 响应头(Response Headers)和响应体(Response Body)
1 响应状态码
2 响应头
Date
Last-Modified
Content-Type
Set-Cookie
Expires:
3 响应体
响应的正文都在响应体里面。
2.2 网页的基础
2.2.1 网页的组成
网页三大部分----HTML, CSS 和JavaScript。 把网页比作一个人的话,HTML相当于骨架,JavaScript相当于肌肉,CSS相当于皮肤。
1.HTML
HTML是用来描述网页的一种语言,其全称叫做Hyper Text Markup Language,即超文本标记语言。网页包括文字,按钮,图片和视频等各种复杂的元素。
2.CSS
Cascading Style Sheets,层叠样式表
3.JavaScript
简称JS,是一种脚本语言,产生了实时,动态,交互的网页功能。
HTML定义了网页的内容和结构,CSS描述了网页的布局,JavaScript定义了网页的行为
2.2.2 网页的结构
各种标签
2.2.3 节点树及节点间的关系
在HTML中,所有的标签定义的内容都是节点,它们构成了一个HTML DOM树。