Linux 网络 -HTTP 协议
@TOC
零、前言
在此之前我们对网络套接字编程有了一定的基础和了解,接下来我们将自顶向下学习 Linux 网络分层协议栈,透过对协议栈的深入学习从而加深我们对网络的理解
HTTP 协议
- 概念及介绍: 
HTTP(Hyper Text Transfer Protocol)协议又叫做超文本传输协议,是一个简单的请求-响应协议,HTTP 通常运行在 TCP 之上
在编写网络通信代码时,我们可以自己进行协议的定制,但实际有很多优秀的工程师早就已经写出了许多非常成熟的应用层协议,其中最典型的就是 HTTP 协议
1、认识 URL
URL(Uniform Resource Lacator)叫做统一资源定位符,也就是我们通常所说的网址,是因特网的万维网服务程序上用于指定信息位置的表示方法
- 示图: 
 
 - 一个 URL 大致由如下几部分构成: 
- 协议方案名称 
协议名称表示请求时需要使用的协议,通常使用的是 HTTP 协议或安全协议 HTTPS
HTTPS 是以安全为目标的 HTTP 通道,在 HTTP 的基础上通过传输加密和身份认证保证了传输过程的安全性
- 登录信息 
登录认证信息包括登录用户的用户名和密码,登录认证信息可以在 URL 中体现出来
绝大多数 URL 的这个字段都是被省略的,因为登录信息可以通过其他方案交付给服务器
- 服务器地址 
服务器地址也叫做域名,比如
www.alibaba.com,www.qq.com,www.baidu.com
在计算机的世界中用 IP 地址标识公网内的一台主机,但 IP 地址是一串数字并不适合用户使用,为了方便用户从而有了具有更好的自描述性的域名
实际上域名和 IP 地址是等价的,在计算机当中使用的时候既可以使用域名,也可以使用 IP 地址
- ping命令获取域名解析后的 IP 地址:
 
 - 服务器端口号 
HTTP 协议和套接字编程一样都是位于应用层的,进行网络数据传输时需要主动确定服务端的 ip 和 port
常用的服务与端口号之间的对应关系都是明确的,所以使用时不要指明该协议对应的端口号的,而 URL 中也通常省略服务器的端口号
- 带层次的文件路径 
要获取(访问)的应用资源的路径,即资源的存储位置,一般会使用“/”来分级描述
- 注意: 
比如我们打开浏览器输入百度的域名后,此时浏览器就帮我们获取到了百度的首页,我们可以将这种资源称为网页资源,此外我们还会向服务器请求视频、音频、网页、图片等资源
HTTP 之所以叫做超文本传输协议,而不叫做文本传输协议,就是因为有很多资源实际并不是普通的文本资源
从这里的路径分隔符,我们可以分辨服务器的平台:Linux 的路径分隔符是
/,Windows 的路径分隔符是\
- 查询字符串 
用于获取资源时,向服务器端传递参数,可以一个或多个,多个则以”&”连接,通常以“?”作为开始符号,例如例子“?q=java”表示传递的搜索参数 java,即该应用 url 表示搜索 java 方面的内容
- 片段标识符 
也叫做哈希值,通常以 #开始,表示定位到页面某个位置(或者说定位到页面的锚点,熟悉前端的人应该知道锚点是指页面某个部分的 id),这部分内容不传到服务器端,而是用于前端页面定位显示
2、urlencode 和 urldecode
- 概念及介绍: 
像 / ? : 等这样的字符, 已经被 url 当做特殊意义理解了,因此这些字符不能随意出现
如某个参数中需要带有这些特殊字符, 就必须先对特殊字符进行转义
- 示例: 
 
 - 转义规则: 
将需要转码的字符转为 16 进制,然后从右到左,取 4 位(不足 4 位直接处理),每 2 位做一位,前面加上 %,编码成 %XY 格式
3、HTTP 协议格式
1)HTTP 请求
- 请求格式示图: 
 
 - 请求格式组成: 
首行: [方法] + [url] + [版本]
Header: 请求的属性, 冒号分割的键值对;每组属性之间使用\n 分隔;遇到空行表示 Header 部分结束
Body: 空行后面的内容都是 Body. Body 允许为空字符串. 如果 Body 存在, 则在 Header 中会有一个
Content-Length 属性来标识 Body 的长度
注:前面三部分是一般是 HTTP 协议自带的,是由 HTTP 协议自行设置的,而请求正文一般是用户的相关信息或数据;如果用户在请求时没有信息要上传给服务器,此时请求正文就为空字符串
- 示例获取 HTTP 请求: 
用套接字编写一个 TCP 服务器,使用浏览器访问服务器的 ip 和 port,也就是使用浏览器发起 http 请求
服务端不对这个 HTTP 请求进行过任何解析,直接将 http 请求进行打印输出
- http 服务器代码: 
- 效果: 
 
 - 示图: 
 
 - 请求行格式: 
- 请求报头格式: 
- 请求报头内容组成: 
Host :请求的资源在哪个主机的端口上
Connection:该请求支持长连接(heep_alive)
Content-Length:正文内容长度
Content-Type:数据类型
User-Agent:声明用户的操作系统和浏览器版本信息
Accent:发起了请求
Referer:当前页面是从哪个页面跳转过来的
Accept-Encoding:接受的编码
Accept-Language:接受的语言类型
Cookie:用于在客户端存储少量信息,通常用于实现会话(session)功能
- HTTP 如何进行解包: 
请求行和请求报头是 HTTP 的报头信息,而这里的请求正文实际就是 HTTP 的有效载荷,而请求当中的空行起到分离报头和有效载荷的作用
读取一个请求时,通过报头中的 Content-Length(正文的长度)来精准控制读取该请求正文的长度,从而将连续的几个请求进行分开
- HTTP 如何进行分用: 
理论上 HTTP 不需要向上交付,HTTP 已经是最上一层的协议,但是上一层还有用户,需要将正文、请求方法和属性等交给用户
2)HTTP 响应
- 响应格式示图: 
 
 - 响应格式组成: 
首行:[版本号] + [状态码] + [状态码解释]
Header:请求的属性,冒号分割的键值对;每组属性之间使用\n 分隔;遇到空行表示 Header 部分结束
Body:空行后面的内容都是 Body,Body 允许为空字符串,如果 Body 存在,则在 Header 中会有一个 Content-Length 属性来标识 Body 的长度;如果服务器返回了一个 html 页面,那么 html 页面内容就是在 body 中
- 获取响应示例:http 服务器代码构建响应 
- 适用网页获取响应: 
 
 - 使用 postman 进行 GET 方法获取响应: 
 
 - 使用 telnet 命令获取响应: 
 
 注:客户端在发起 HTTP 请求是会告诉服务器自己所使用的 http 版本,此时服务器就可以根据客户端使用的 http 版本,为客户端提供对应的服务,而不至于因为双方使用的 http 版本不同而导致无法正常通信
4、HTTP 的方法
- HTTP 常见的方法: 
注:其中最常用的就是 GET 方法和 POST 方法
- GET 方法和 POST 方法对比: 
GET 方法一般用于获取某种资源信息,而 POST 方法一般用于将数据上传给服务器,上传数据时也有可能使用 GET 方法,比如搜索提交数据时
GET 方法和 POST 方法都可以带参:GET 方法是通过 url 传参的;POST 方法是通过正文传参的
POST 方法通过正文传参能传递更多的参数,而 url 的长度是有限,所以 GET 方式传参有限
POST 方法传参更加私密,因为 GET 方法会将参数回显到 url 当中,POST 方法在正文中不会被别人轻易看到。但是实际两种方法都不安全,POST 方法传参可以被截取,要做到安全只能通过加密来完成
- 参数提交 GET 和 post 方式演示: 
 
 注:表单当中的 method 属性指定参数提交的方法,action 属性表示将表单中的参数提交给服务器上的哪个资源位置
- GET 方式示图: 
 
 - post 方式示图: 
 
 5、HTTP 的状态码
在开发好了网站后,用户通过 URL 对资源进行操作,服务器端要告诉用户交互的结果,比如新增资源是成功还是失败了。一个较好的办法就是遵循 HTTP 协议,使用请求响应的 HTTP状态码(Status Code)来进行判断
- HTTP 的状态码: 
注:最常见的状态码如 200(OK),404(Not Found),403(Forbidden 请求权限不够),302(Redirect),504(Bad Gateway)
- 常见的状态码有: 
200 OK:客户端请求成功
301 Permanent Redirect:永久重定向,表示资源已经永久移动到另一个位置
307/302 Temporary Redirect:临时重定向,表示资源临时移动到了另一个位置
403 Forbidden:指的是服务器端有能力处理该请求,但是拒绝授权访问
404 Not Found:请求资源不存在,比如资源被删除了,或用户输入了错误的 URL
500 Internal Server Error:服务器发生不可预期的错误,一般是代码的 BUG 所导致的
502 Bad Gateway:表示作为网关或代理角色的服务器,从上游服务器(如 tomcat、php-fpm)中接收到的响应是无效的
- 重定向状态码: 
重定向就是通过各种方法将各种网络请求重新定个方向转到其它位置,此时这个服务器相当于提供了一个引路的服务
重定向又可分为临时重定向和永久重定向,其中状态码 301 表示的就是永久重定向,而状态码 302 和 307 表示的是临时重定向
永久重定向第一次访问浏览器进行重定向,并且更新客户端的标签,后续再访问直接就是重定向后的网站;临时重定向,每次访问该网站时都需要浏览器来帮我们完成重定向跳转到目标网站
- 临时重定向演示: 
进行临时重定向时需要用到 Location 字段,Location 字段是 HTTP 报头当中的一个属性信息,该字段表明了你所要重定向到的目标网站
- 构建临时重定向 http 响应代码: 
- 效果: 
 
  
 6、HTTP 常见的 Header
- HTTP 常见的 Header: 
Content-Type:数据类型(text/html 等)
Content-Length:正文的长度
Host:客户端告知服务器,所请求的资源是在哪个主机的哪个端口上
注:Host 字段表明了客户端要访问的服务的 IP 和端口,有些服务器实际提供的是一种代理服务,也就是代替客户端向其他服务器发起请求,然后将请求得到的结果再返回给客户端,在这种情况下客户端就必须告诉代理服务器它要访问的服务对应的 IP 和端口
User-Agent:声明用户的操作系统和浏览器的版本信息
注:User-Agent 代表的是客户端对应的操作系统和浏览器的版本信息,访问一些网站是就会根据主机的版本和系统推送相匹配的服务
Referer:当前页面是哪个页面跳转过来的
注:Referer 记录上一个页面的好处一方面是方便回退,另一方面可以知道我们当前页面与上一个页面之间的相关性
Location:搭配 3XX 状态码使用,告诉客户端接下来要去哪里访问
Cookie:用于在客户端存储少量信息,通常用于实现会话(session)的功能
Keep-Alive(长连接):
HTTP/1.0 是通过 request&response 的方式来进行请求和响应的,HTTP/1.0 常见的工作方式就是客户端和服务器先建立链接,然后客户端发起请求给服务器,服务器再对该请求进行响应,然后立马端口连接
现在主流的 HTTP/1.1 是支持长连接的,所谓的长连接就是建立连接后,客户端可以不断的向服务器一次写入多个 HTTP 请求,而服务器在上层依次读取这些请求就行了,此时一条连接就可以传送大量的请求和响应
7、Cookie 和 Session
- 概念及介绍: 
HTTP 实际上是一种无状态协议,HTTP 的每次请求/响应之间是没有任何关系的,但你在使用浏览器的时候发现并不是这样的
当你登录一次能某网站账号后,再将网站关了甚至是重启电脑,再次网站时并没有要求你再次输入账号和密码(账号还是登录好的状态),这实际上是通过 cookie 技术实现的
- cookie 技术原理: 
因为 HTTP 是一种无状态协议,每次进行 http 请求时都不会保存之前的一种页面转态(比如用户登录),所以每当都要需要重新输入账号和密码进行认证(客户端提交账号和密码参数进行认证)
而 cookie 是内置到 HTTP 协议当中的一种保存状态技术,当认证通过后服务端响应给客户端进行 Set-Cookie,客户端收到响应后会自动将 Set-Cookie 的值保存在 cookie 文件当中,接下来每次进行 http 请求的同时都会将之前页面的 cookie 参数一同进行提交,从而达到了之前状态的保存的效果
- cookie 的弊端: 
cookie 虽然在持久保存客户端数据提供了方便,但是如果 cookie 被人拦截了,那人就可以取得期中的参数信息。如果是账号和密码,那么就存在账号被盗以及账号被利用做坏事
- session 技术及原理: 
单纯的使用 cookie 是非常不安全的,因为此时 cookie 文件当中就保存的是你的私密信息,一旦 cookie 泄漏你的隐私信息也就泄漏
当我们第一次登录某个网站输入账号和密码后,服务器认证成功后会生成一个哈希出来的 SessionID,这个 SessionID 与用户信息是不相关的,系统会将所有登录用户的账号和 SessionID 值维护起来
当认证通过后服务端会将这个生成的 SessionID 值响应给客户端,客户端收到响应后会自动提取出 SessionID 的值并保存在浏览器的 cookie 文件当中,后续访问该服务器时,对应的 HTTP 请求当中就会自动携带上这个 SessionID 进行身份验证
而服务器识别到 HTTP 当中的 SessionID,再到对应的数据库当中进行对比,对比成功就说明这个用户是曾经登录过的,即认证成功
注:引入 session 技术后,浏览器当中的 cookie 文件保存的是 SessionID,同样的这个 cookie 文件可能被盗取,但是账号和密码并不会被泄漏,而是对应的 SessionID 是会泄漏的,此时非法用户仍然可以盗取我的 SessionID 去访问我曾经访问过的服务器,相当于依旧存在利用 SessionId 进行账号登录并利用账号做坏事
- cookie 和 session 的区别: 
cookie 将数据存放在客户的浏览器上;session 将数据放在服务器中,将 sessionid 存在客户端中
cookie 不是很安全,别人可以分析存放在本地的 cookie 并进行 cookie 欺骗,考虑到安全应当加入 session 技术
session 会在一定时间内保存在服务器上,当访问增多会占用服务器的性能,考虑到减轻服务器性能方面应当使用 cookie
建议将登陆信息等重要信息存放为 session,其他信息如果需要保留可以放在 cookie 中
- cookie 技术的演示: 
在服务器给客户端的 HTTP 响应当中设置 Set-Cookie 字段,即使用 cookie 技术
- 构建响应代码: 
- 运行效果: 
 
 版权声明: 本文为 InfoQ 作者【可口也可樂】的原创文章。
原文链接:【http://xie.infoq.cn/article/070107bd39b5dad86212f8fcd】。文章转载请联系作者。










 
    
评论