一文梳理 HTTP、TCP、Socket 和 WebSocket 的区别和联系
一、OSI 网络七层模型
OSI
是 Open System Interconnection
的缩写,译为“开放式系统互联”。
OSI
模型把网络通信的工作分为 7 层,从下到上分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。
第一层:应用层,定义了用于在网络中进行通信和传输数据的接口;(Http 协议位于该层)
第二层:表示层,定义不同系统中数据的传输格式,编码和解码规范等;
第三层:会话层,管理用户的会话,控制用户间逻辑连接的建立和中断;
第四层:传输层,管理着网络中端到端的数据传输;(
Tcp
协议位于该层)第五层:网络层,定义网络设备间如何传输数据;(
IP
位于该层)第六层:链路层,将上面的网络层的数据包封装成数据帧,便于物理层传输;
第七层:物理层,这一层主要就是传输这些二进制数据。
但是,OSI
只是存在于概念和理论上的一种模型,它的缺点是分层太多,增加了网络工作的复杂性,所以没有大规模应用。后来人们对 OSI 进行了简化,合并了一些层,最终只保留了 4 层,从下到上分别是接口层、网络层、传输层和应用层,这就是大名鼎鼎的 TCP/IP 模型。
这个网络模型究竟是干什么呢?简而言之就是进行数据封装的。
我们平常使用的程序(或者说软件)一般都是通过应用层来访问网络的,程序产生的数据会一层一层地往下传输,直到最后的网络接口层,就通过网线发送到互联网上去了。数据每往下走一层,就会被这一层的协议增加一层包装,等到发送到互联网上时,已经比原始数据多了四层包装。整个数据封装的过程就像俄罗斯套娃。
当另一台计算机接收到数据包时,会从网络接口层再一层一层往上传输,每传输一层就拆开一层包装,直到最后的应用层,就得到了最原始的数据,这才是程序要使用的数据。
给数据加包装的过程,实际上就是在数据的头部增加一个标志(一个数据块),表示数据经过了这一层,我已经处理过了。给数据拆包装的过程正好相反,就是去掉数据头部的标志,让它逐渐现出原形。
由上所述,在互联网上传输一份数据是多么地复杂啊,而我们却感受不到,这就是网络模型的厉害之处。我们只需要在代码中调用一个函数,就能让下面的所有网络层为我们工作。
我们所说的 socket 编程,是站在传输层的基础上,所以可以使用 TCP/UDP
协议,但是不能干「访问网页」这样的事情,因为访问网页所需要的 http 协议位于应用层。
两台计算机进行通信时,必须遵守以下原则:
必须是同一层次进行通信,比如,A 计算机的应用层和 B 计算机的传输层就不能通信,因为它们不在一个层次,数据的拆包会遇到问题。
每一层的功能都必须相同,也就是拥有完全相同的网络模型。如果网络模型都不同,那不就乱套了,谁都不认识谁。
数据只能逐层传输,不能跃层。
每一层可以使用下层提供的服务,并向上层提供服务。
二、TCP 连接
建立起一个TCP
连接需要经过“三次握手”:
第一次握手:客户端发送
syn
包(syn=j
)到服务器,并进入SYN_SEND
状态,等待服务器确认;第二次握手:服务器收到
syn
包,必须确认客户的SYN(ack=j+1)
,同时自己也发送一个SYN
包(syn=k
),即SYN+ACK
包,此时服务器进入SYN_RECV
状态;第三次握手:客户端收到服务器的
SYN+ACK
包,向服务器发送确认包ACK(ack=k+1)
,此包发送完毕,客户端和服务器进入ESTABLISHED
状态,完成三次握手。
握手过程中传送的包里不包含数据,三次握手完毕后,客户端与服务器才正式开始传送数据。理想状态下,TCP
连接一旦建立,在通信双方中的任何一方主动关闭连接之前,TCP
连接都将被一直保持下去。断开连接时服务器和客户端均可以主动发起断开TCP
连接的请求。
SYN
攻击就是利用三次握手的第二次握手时进行的,这时候服务器处于SYN_RECV
状态,等待客户端进行确认ACK
,SYN
会伪造不存在的源IP
,就会有大量的链接处于等待或重试发送SYN+ACK
包,导致该阶段队列持续增长,进而导致后续正常请求被丢弃。
三、HTTP 连接
HTTP
协议即超文本传送协议(Hypertext Transfer Protocol
),是 Web 联网的基础,也是手机联网常用的协议之一,HTTP
协议是建立在TCP
协议之上的一种应用。
HTTP
连接最显著的特点是客户端发送的每次请求都需要服务器回送响应,在请求结束后,会主动释放连接。从建立连接到关闭连接的过程称为“一次连接”。
在
HTTP 1.0
中,客户端的每次请求都要求建立一次单独的连接,在处理完本次请求后,就自动释放连接。在
HTTP 1.1
中,则可以在一次连接中处理多个请求,并且多个请求可以重叠进行,不需要等待一个请求结束后再发送下一个请求。
由于HTTP
在每次请求结束后都会主动释放连接,因此HTTP
连接是一种“短连接”。
要保持客户端程序的在线状态,需要不断地向服务器发起连接请求,通常情况下即使不需要获得任何数据,客户端也保持每隔一段固定的时间向服务器发送一次“保持连接”的请求,服务器在收到该请求后对客户端进行回复,表明知道客户端“在线”。若服务器长时间无法收到客户端的请求,则认为客户端“下线”,若客户端长时间无法收到服务器的回复,则认为网络已经断开。
四、SOCKET 连接与 HTTP 连接
通常情况下Socket
连接就是TCP
连接,因此Socket
连接一旦建立,通信双方即可开始相互发送数据内容,直到双方连接断开。但在实际网络应用中,客户端到服务器之间的通信往往需要穿越多个中间节点,例如路由器、网关、防火墙等,大部分防火墙默认会关闭长时间处于非活跃状态的连接而导致 Socket
连接断连,因此需要通过轮询告诉网络,该连接处于活跃状态。
而HTTP
连接使用的是“请求—响应”的方式,不仅在请求时需要先建立连接,而且需要客户端向服务器发出请求后,服务器端才能回复数据。
很多情况下,需要服务器端主动向客户端推送数据,保持客户端与服务器数据的实时与同步。此时若双方建立的是Socket
连接,服务器就可以直接将数据传送给客户端;若双方建立的是HTTP
连接,则服务器需要等到客户端发送一次请求后才能将数据传回给客户端,因此,客户端定时向服务器端发送连接请求,不仅可以保持在线,同时也是在“询问”服务器是否有新的数据,如果有就将数据传给客户端。
五、SOCKET 连接与 TCP/IP 连接
创建Socket
连接时,可以指定使用的传输层协议,Socket
可以支持不同的传输层协议(TCP
或UDP
),当使用TCP
协议进行连接时,该Socket
连接就是一个TCP
连接。
socket
则是对TCP/IP
协议的封装和应用(程序员层面上)。也可以说,TPC/IP
协议是传输层协议,主要解决数据如何在网络中传输,而HTTP
是应用层协议,主要解决如何包装数据。
关于TCP/IP
和HTTP
协议的关系,网络有一段比较容易理解的介绍:
在传输数据时,可以只使用(传输层)TCP/IP 协议,但是那样的话,如果没有应用层,便无法识别数据内容,如果想要使传输的数据有意义,则必须使用到应用层协议,应用层协议有很多,比如
HTTP、FTP、TELNET
等,也可以自定义应用层协议。WEB 使用HTTP
协议作应用层协议,以封装HTTP
文本信息,然后使用TCP/IP
做传输层协议将它发到网络上。
平时说的最多的socket
是什么呢,实际上socket
是对TCP/IP
协议的封装,Socket
本身并不是协议,而是一个调用接口(API),通过Socket
,才能使用TCP/IP
协议。
实际上,Socket
跟TCP/IP
协议没有必然的联系。Socket
编程接口在设计的时候,就希望也能适应其他的网络协议。所以说,Socket
的出现 只是使得程序员更方便地使用TCP/IP
协议栈而已,是对TCP/IP
协议的抽象,从而形成了一些最基本的函数接口,比如create、 listen、connect、accept、send、read
和write
等等。
TCP/IP
只是一个协议栈,就像操作系统的运行机制一样,必须要具体实现,同时还要提供对外的操作接口。这个就像操作系统会提供标准的编程接口,比如 win32 编程接口一样,TCP/IP
也要提供可供程序员做网络开发所用的接口,这就是Socket
编程接口。
实际上,传输层TCP
是基于网络层IP
协议的,而应用层HTTP
协议又是基于传输层TCP
协议的,而Socket
本身不算是协议,就像上面所说,它只是提供了一个针对TCP
或者UDP
编程的接口。
总结:
HTTP
是应用层协议,定义的是传输数据的内容以及格式的规范。TCP
是底层通讯协议,定义的是数据传输和连接方式的规范。Socket
可以支持不同的传输层协议(TCP
/UDP
),当使用TCP
协议进行连接时,该Socket
连接就是一个TCP
连接,Socket
是发动机,提供了网络通信的能力。
六、什么是单工、半双工、全双工通信?
单工:信息只能单向传送;
半双工:信息能双向传送但不能同时双向传送;
全双工:信息能够同时双向传送。
七、WebSocket 与 Socket 的关系
Socket
其实并不是一个协议,而是为了方便使用TCP/UDP
而抽象出来的一层,是位于应用层和传输控制层之间的一组接口。
Socket
是应用层与TCP/IP
协议族通信的中间软件抽象层,它是一组接口,提供一套调用TCP/IP
协议的 API。在设计模式中,Socket
其实就是一个门面模式,它把复杂的TCP/IP
协议族隐藏在Socket
接口后面,对用户来说,一组简单的接口就是全部,让Socket
去组织数据,以符合指定的协议。
当两台主机通信时,必须通过Socket
连接,Socket
则利用TCP/IP
协议建立TCP
连接。TCP
连接则更依靠于底层的IP
协议,IP
协议的连接则依赖于链路层等更低层次。
WebSocket
就像HTTP
一样,是一个典型的应用层协议。
总结:
Socket
是传输控制层接口,WebSocket
是应用层协议。
八、WebSocket 与 HTTP 的关系
WebSocket
是HTML5
规范提出的一种协议。HTML5 Web Sockets 规范定义了 Web Sockets API,支持页面使用Web Socket
协议与远程主机进行全双工的通信。它引入了WebSocket
接口并且定义了一个全双工的通信通道,通过一个单一的套接字在 Web 上进行操作。
HTML5 Web Sockets 以最小的开销高效地提供了 Web 连接。相较于经常需要使用推送实时数据到客户端甚至通过维护两个HTTP
连接来模拟全双工连接的旧的轮询或长轮询(Comet
)来说,这就极大的减少了不必要的网络流量与延迟。关系图:
相同点:
都是一样基于
TCP
的,都是可靠性传输协议。都是应用层协议。
不同点:
WebSocket
是双向通信协议,模拟Socket
协议,可以双向发送或接受信息。HTTP
是单向的。WebSocket
是需要浏览器和服务器握手进行建立连接的。而http
是浏览器发起向服务器的连接,服务器预先并不知道这个连接。
联系:WebSocket
在建立握手时,数据是通过HTTP
传输的。但是建立之后,在真正传输时候是不需要HTTP
协议的。
WebSocket
连接的过程:
客户端发起
http
请求,经过 3 次握手后,建立起TCP
连接;http
请求里存放WebSocket
支持的版本号等信息,如:Upgrade、Connection、WebSocket-Version
等;服务器收到客户端的握手请求后,同样采用
HTTP
协议回馈数据;客户端收到连接成功的消息后,开始借助于
TCP
传输信道进行全双工通信。
总结:
在
WebSocket
中,只需要服务器和浏览器通过HTTP
协议进行一个握手的动作,然后单独建立一条TCP
通信通道进行数据传送。
版权声明: 本文为 InfoQ 作者【No Silver Bullet】的原创文章。
原文链接:【http://xie.infoq.cn/article/95f80659760d8dd230db7b548】。文章转载请联系作者。
评论