TCP/IP协议
1.前言
互联网的核心是一系列的协议,也就是我们口中所说的“TCP-IP协议”。记住,TCP-IP协议不是指TCP传输协议或者IP地址,而是一系列互联网协议的统称。
一、TCP/IP和OSI模型
网络业界针对网络协议体系有一个标准的七层模型,称为“开放系统互连(OSI)”模型,这是ISO(国际标准化组织)为了标准化网络协议系统所做出的规范,旨在提高网络互连性,并且方便软件开发人员以一种开放方式来使用协议标准。
当OSI标准体系出现的时候,TCP/IP已经处于开发之中。严格来说,TCP/IP没有遵守OSI模型,然而这两种模型的确有非常类似的目标。如下图所示:
图1
可以看出,互联网的实现,分为了若干层,每一层都有自己的实现。 在这个模型中,每个分层都接收由它下一层所提供的特定服务,并且负责为自己的上一层提供特定服务,它们所遵循的约定就叫做“协议”。
在这里,我们只讨论TCP/IP协议。在TCPIP模型中,从下到上分别是:
- 物理层——负责数据传输,相当于以太网或者电话线路等物理设备;
- 数据链路层——相当于电脑设备的网卡以及驱动程序,管理物理地址(MAC);
- 网络层——负责逻辑地址以及路由分发,包括IP、ICMP、ARP、RARP等协议;
- 传输层——能够让应用程序之间实现通信,典型协议为TCP、UDP;
- 应用层——跟具体用户应用相关,包括HTTP、FTP、SSH等等;
对于普通大众来说,我们接触到的一般都是最上面一层,也就是应用层,不需要感知应用层以下的层。但是对于开发人员来说,要理解网络编程,必须从最底下一层开始,理解每层的作用。
浏览网页
它们会涉及到一个数据组装和拆装的过程,发起方组装数据,接收方拆装数据并响应请求。如下图所示:
图3
上图中每一层都可以抽象为首部+数据的结构,从下到上包括以太网首部、IP首部、TCP首部、HTTP首部(图中并没有,但是从Http协议构成中也可以抽象出来)。每层首部包括各种信息,用于整个通信过程的数据组装和解析,这也是TCPIP协议的重点。
接下来,按照从底层到上层简要分析各层协议以及作用。
二、协议分层
按照TCPIP协议划分,可分为4层或者5层,5层划分为:
- 物理层
- 数据链路层
- 网络层
- 传输层
- 应用层
通常也习惯把物理层和数据链路层统称为数据链路层。
2.1 物理层
电脑要想上网,第一件事情就是要把电脑通过网线连上家中路由。而网线就是介质的一种,还包括无线电波、电话线、双绞线等方式。
物理层,理解起来很简单,就是把电脑连起来的物理手段,负责传输0和1的电信号。根据物理介质的不同,网络的带宽、可靠性、安全性、延迟等都会有所不同,导致传输速度的不同,这是需要关注的一个点。
2.2 数据链路层
物理层只是单纯传输0和1电信号,这是没有任何实质意义的,必须有人把这些无意义的电信号转化成有效的数据格式,这就是解读方式:多少个电信号组成一组?每个信号位代表什么意思?
这就是数据链路层的功能,在物理层的上一层,确定了0和1的分组方式。数据链路层中最重要的就是我们经常所说的网卡以及其驱动程序。网卡是硬件,驱动程序是在操作系统和硬件之间起到桥梁作用的软件(经常我们重装电脑都会说安装驱动程序,其中就包括了网卡驱动程序)。
数据链路层中最重要的几个概念:
- 以太网协议
- MAC地址
- 广播
2.2.1 以太网协议
以太网规定,一组电信号构成一个整个数据,叫做“数据帧”(Frame)。每帧包括三个部分:
- Head 帧头
- Date 帧数据
- Tial 帧尾
图6
- 帧头,包含数据帧的说明项,包括发送者MAC地址、接收者MAC地址、数据类型等;固定长度为14字节;
- 数据帧,就是数据包的具体内容,最短为46字节(像ARP、RARP这些网际层协议就需要填充字节以达到46字节的限制),最长为1500字节;
- 帧尾,一个4字节的CRC冗余校验码结尾,用于判断数据传输是否出现损坏;
所以,总结一下,整个“帧”最短长度为64字节(14+46+4),最大长度为1518字节(14+1500+4)。如果数据很长,就必须分割成多个数据帧发送。
注:
- 以上数据帧格式是针对以太网II来说明,这是相对比较通用的,当然还有其他版本的以太网帧,但是基本上都是大同小异。
2.2.2 MAC地址
上面说到,以太网帧的帧头包括了发送者和接收者的地址信息。那么,我们如何才能确保在数亿数量电脑中有自己的地址标识呢?
以太网规定,接入网络的设备,都必须有网卡。数据包发送必须是从一张网卡传送到另一张网卡。而网卡的地址,就是以太网帧的发送地址和接收地址,也就是MAC地址,也成为物理地址(类比于我们身份证上的家庭地址)。
网卡地址在工厂生产阶段就被固化到硬件设备中去,全球唯一。
前6个十六进制数是厂商编号,后6个是该厂商的网卡流水号。有了MAC地址,就可以定位网卡和数据包的路径了。
2.2.4 广播
一个广州的网卡怎么知道北京网卡的MAC地址呢?这就需要通过ARP协议来获得,这是从IP得到MAC地址的协议,暂且不讲。这里只需要,通过ARP协议,我们可以知道北京网卡的MAC地址,这就足够了。
有了MAC地址之后,系统如何把数据发送到接收方呢?
发送数据不是点对点精准发送,而是采取广播的方式,向本网络内所有计算机发送,每台计算机都有机会接收到数据帧以及解析数据帧,判断目的MAC地址是否与自己的网卡地址相同,同就是接收方,不同则忽略该数据帧。
有了数据包的定义、网卡的MAC地址、广播的发送方式,"链接层"就可以在多台计算机之间传送数据了。
注:
- 肯定会疑惑,广播方式在大数量级计算机集群中是否会泛滥?答案是肯定的,所以才有了后续的优化,比如交换机网络端口可以记录端口以及IP、MAC地址的对应方式,做到更加精准的广播。
2.3 网际层
上面说到,以太网帧依靠MAC地址发送数据。但是MAC地址并没有涉及到分层的概念,如果采用广播的方式发送数据帧,在一个庞大的网络体系中,每台计算机都会收到该帧,这是严重不合理的。为了区分计算机地址问题,这就引入了“网际层”的概念。
网际层的引入,每台计算机都会有两个地址,一个物理MAC地址,一个逻辑IP地址。两种地址没有任何强关联关系,MAC地址属于内置网卡内,IP地址属于网络管理员分配的。逻辑地址帮助我们分层了子网络,比如北京和广州的子网络,MAC地址则是将数据包送到该子网络的网卡。所以,为了更有效处理数据,一般都是先处理逻辑地址,再处理物理地址。
网际层中,有几个比较重要的协议:
- IP
- ARP
- ICMP
2.3.1 IP地址
根据IP协议定义的地址叫做IP地址,目前大众版本都是IPv4。经常我们看到的 192.168.xx.xx就是所说的IP地址,获取我们可以通过网络适配器可以看到。