传输层Transport layer TCP, since 20
TCP, Transmission Control Protocol
(2020.08.07)
TCP被称为面向连接的(connection-oriented),这是因为一个进程可以向另一个进程发送数据之前,两个进程需要先握手,即他们开始互相发送预备报文段,以确保建立数据连接的参数。
TCP是逻辑连接,其共同状态仅保存在两个通信端系统的TCP程序中。而端系统之间的网络元素不会维持TCP的连接状态。中间路由器对TCP完全视而不见,他们只看到数据报,而非连接。
通信特点
全双工(full-duplex service),处在不同主机的进程A和进程B之间存在一条连接,数据可以同时从A流向B和从B流向A。
点对点(point-to-point),在单个发送方和单个接收方之间的连接。
服务器进程和客户进程
发起连接的进程称为客户进程,另一个称为服务器进程。
(2020.08.08)
数据一旦被送进socket,就由客户TCP控制了,TCP将数据放在一个数据缓存(send buffer)里(C/S两端都有),该缓存也是三次握手时数据存放处。TCP会从缓存中取出一块数据,传递给网络层。
TCP首部+客户数据=TCP报文段(TCP segment)
TCP从send buffer中取出并放入报文段中数据的数据量受限于最大报文段长度(maximum segment size, MSS),其根据最初确定的由本地主机发送的最大链路层帧长度(即最大传输单元Maximum transmission unit, MTU)来设置。以太网和PPP链路都有1500字节的MTU,考虑到TCP/IP首部一般是40字节(TCP首部20字节),TCP报文段中数据长度典型值是1460字节。注意到这里的MSS指的是TCP报文段中来自应用层的数据的最大长度。
TCP连接的组成
一台主机上的缓存、变量和连接进程的socket,以及另一台主机上的缓存、变量、socket。
TCP报文段的结构
首部+数据字段。当TCP发送一个大文件,比如图片,TCP通常将该文件划分成长度为MSS的若干,除最后一块,其他的都是MSS长度。而Telnet这样的应用,数据字段只有一个字节长,也就是其TCP一般只有21个字节的长度。
TCP首部的构成
典型长度:20字节/160bits(选项字段为空时)
源端口号:16bits
目的端口号:16bits
序号(seq num):32bits
确认号(acknowledgment num):32bits
接收窗口(receive window field):16bits,用于流量控制,指示接收方愿意接收的字节数量
首部长度(header length field):4bits,以32bits的字为长度的TCP首部长度
选项字段(options):可选和变长
标志字段(flag field):6bits,ACK/RST/SYN/FIN/PSH/URG
序号和确认号
序号建立在传送的字节流之上而非报文段的序列值上,the sequence number for a segment是报文段首字节的字节流编号。比如一个待发送的文件共10,000个字节,每个TCP的报文段发送1,000个,则第一个报文段的序号是0,第二个序号是1,000,以此类推。该序号是字节的编号,并用于给报文段编号。
上面的例子中假设初始序号是0,在实际应用中收发两方随机选择初始序号。
确认号略复杂。主机A和B之间建立TCP通信,主机A填充进报文段的确认号是A期望从B收到的下一个字节的序号。
往返时间的估计和超时
报文段的样本RTT(SampleRTT)是报文段被发出(交给IP)到对该报文段的确认被收到之间的时间量。仅为一个已经发送的但目前尚未被确认的报文段估计SRTT,从而产生一个接近每个RTT的新SRTT值;不为已经被重传的报文段计算SRTT;仅为传输一次的报文段测量SRTT。
由于网络环境变化,比如路由器的拥塞和端负载的变化,SRTT并不都是典型的。TCP会维持一个SRTT的均值(EstimatedRTT),并根据下面公式计算ERTT
其中的推荐值。该指数加权移动平均值(Exponential Weighted Moving Average, EWMA)赋予最近样本的权值要高于旧样本的权值,因越近的样本能更好的反应网络的拥塞状态。
此外,RTT的标准差DevRTT用于估算SRTT偏离ERTT的程度:
推荐值。
设置和管理重传超时间隔
超时间隔应该大于等于ERTT,否则造成不必要的重传。但也不该比ERTT大很多,导致数据传输时延大。当SRTT波动大时,间隔大些,波动小时,间隔小些。
初始推荐值,当出现超时候翻倍。只要收到报文就更新ERTT,并根据公式重算TimeoutInterval。
(2020.08.09 Sat)
定时器
定时器的管理需要相当大的开销,因此[RFC 6298]推荐仅使用单一的重传定时器,即便有多个已发送但未被确认的报文段。
(2020.08.09 Sat)
TCP中发送方相关的三个主要动作
- 从上层接收待发送的数据
- 定时器超时
- 收到ACK
发送方对这些主要动作的反馈参考可靠数据传输的部分。
超时间隔的选取
每当超时事件发生,TCP重传具有最小序号的未被确认的报文段。只是每次TCP重传是都会将下一次的超时间隔设为先前值的两倍,而不是用从EstimatedRTT和DevRTT推算的值。然而每当定时器遇到另外两个事件,即ACK和上层数据,定时器的启动TimeoutInterval由最近的ERTT和DRTT推算得到。
流量控制(flow-control service)
TCP两侧的主机都有接收缓存。流量控制服务用于消除sndr使rcvr缓存溢出的可能性。fcs因此是一个速度匹配服务,即sndr的发送速率和rcvr应用程序的读取速率相匹配。
TCP让sndr维护一个接收窗口(receive window)的变量来提供流量控制,即rw用于给sndr一个指示-该sndr还有多少可用的缓存空间。TCP是全双工通信,两端的发送方都维护一个rw。分析一种情况,主机A通过TCP向B发送一个大文件,B为该连接分配一个接收缓存,用RcvBuffer来表示。B的应用进程从该缓存中读取数据。有如下变量
- LastByteRead:B上的应用程序从缓存中读出的最后一个字节的编号
- LastByteRcvd:从网络中到达且已经进入B的rw的最后一个字节的编号
缓存不许溢出,故有接收窗口用rwnd表示,缓存可用空间数量(即空闲的空间数量)表示为
主机A需要跟踪另外两个变量,LastByteSent和LastByteAcked,对A来说有
一个特例,当B的接收缓存满,rwnd=0,假设此时B没有任何数据要发送给A。考虑到TCP并不向A发送带有rwnd的新报文段, 而事实上TCP仅当有数据或去人要发时才会发送报文段给A。导致A不知道B的接收缓存有新空间,A被阻塞不能在发送数据。解决方案,TCP规范要求,B的接收窗口为0时,A继续发送只有一个字节数据的报文段,这些报文段将会被接收方确认,最终缓存开始清空,且确认报文段将包含一个非0的rwnd值。
TCP连接管理
(2020.08.05)
TCP建立过程中三个握手(three-way handshake)的作用
- 第一次发送by sndr,不含应用层数据
- 第二次发送by rcvr,rcvr确认了s ndr的发送能力和rcvr的接收能力
- 第三次发送by sndr,sndr确认了sndr的发送能力和接收能力,确认rcvr的接收能力和发送能力。rcvr接收到第三次发送则确认了rcvr的发送能力和sndr的接收能力。
三次发送,sndr/rcvr双方各自确认了自身和对方的接收能力和发送能力。握手完成便可建立连接。
(2020.08.07)
前两次握手的报文段不承载"有效载荷",也就是不包含应用层数据,第三个握手可以承载应用层数据。
(2020.08.09 Sat)
- 第一步发送的报文段中,SYN比特被设置为1,因此该报文段被称为SYN报文段。客户会随机的选择一个初始序号(client_isn),放在该报文段的序号字段中。即
- 第二步,SYN报文段到达服务器,服务器为该TCP分配缓存和变量,向客户发送允许连接的报文段。该报文段中SYN=1,确认号字段被设置为client_isn+1,ACK=client_isn+1,(初始)序号为server_isn,seq=server_isn。该报文段称为SYNACK报文段(segment)。即
- 第三步,客户收到SYNACK后为该TCP分配缓存和变量。可以包含应用层数据。
完成这三步,C-S可通信,以后每一个报文段的SYN都设置为0。
结束连接
客户打算结束连接,发出一个特殊的报文段,设置其中的FIN=1。服务器接收到回复一个确认报文段,其中的FIN=1。服务器再次发送一个结束连接报文段,FIN=1。客户收到后发送ACK并释放占用的资源。
拥塞控制原理
IP层不会向两个端系统提供有关网络拥塞的反馈信息。略。
TCP拥塞控制
发送方sndr设定一个变量,拥塞窗口congestion windown,cwnd,它对TCP发送方能向网络中发送流量的速率进行了限制,并且和前面提到的接收窗口rwnd联合决定了发送速率,即
TCP如何感知它和目的地之间的拥塞
定义丢包事件:出现超时,或者受到来自接收方的3个冗余ACK。
一个丢失的报文段意味着拥塞,当报文丢失应该降低TCP sndr的发送速率。即减小cwnd。
一个确认报文段指示该网络正在向rcvr交付sndr的报文段,因此,当对先前未确认报文段的确认到达时,能够增加发送方的速率。
贷款检测。
拥塞控制算法
该算法分为三部分,1)慢启动,2)拥塞避免,3)快速恢复。其中的1和2是TCP强制部分。在收到ACK时,慢启动比拥塞避免更快的增加cwnd的长度。
慢启动
当一个TCP连接开始时,cwnd的值通常设为一个MSS的较小值。这使得发送速率大约为MSS/RTT。如MSS=500Bytes,RTT=200ms,则初始发送速率是20kbps。注意到此时带宽可能比初始速率快的多。慢启动(slow-start)状态,cwnd的值以一个MSS开始并且每当传输的报文段首次被确认就增加一个MSS。这一过程使得每过一个RTT,发送速率就翻番。初始速度慢,但ss阶段以指数增长。
结束ss的情况
- 存在一个由超时指示的丢包时间,即拥塞,sndr将cwnd设为1并重新开始ss。还将第二个状态变量的值ssthresh设置为cwnd/2,即当检测到拥塞是将ssthresh设置为cwnd的一半。
- 直接与ssthresh相关联。第一种情况设置ssthresh为cwnd的一半,当cwnd达到ssthresh,结束慢启动并且TCP转移到拥塞避免模式。
- 检测到3个冗余ACK,TCP执行一种快速重传。
拥塞避免模式
cwnd的值大约是上次遇到拥塞时的值的一半。每个RTT只将cwnd的值增加一个MSS。一种通用的方法是sndr无论何时收到一个新的ACK,就将cwnd增加一个MSS字节。
Reference
- 计算机网络(自顶向下方法)原书第7版,James F. Kruose and etc., 陈鸣 译, 机械工业出版社,2019年