计算机网络重要知识点摘录（考研用）——第六章：应用层

本文参考于《2021年计算机网络考研复习指导》（王道考研），《计算机网络》

6.2 域名系统（DNS）

域名系统（Domain Name System,DNS）是因特网使用的命名系统，用来把便于人们记忆的具有特定含义的主机名（如www.cskaoyan.com）转换为便于机器处理的IP地址。 DNS系统采用客户/服务器模型，其协议运行在UDP之上，使用53号端口

6.2.3 域名解析过程

域名解析是指把域名映射成为IP地址或把IP地址映射成域名的过程。前者称为正向解析，后者称为反向解析。当客户端需要域名解析时，通过本机的DNS客户端构造一个DNS请求报文，以UDP数据报方式发往本地域名服务器。域名解析有两种方式：递归查询和递归与迭代相结合的查询。递归查询的过程如下图，由于该方法给根域名服务器造成的负载过大，所以在实际中几乎不使用。

常用递归与迭代相结合的查询方式，如图：

该方式分为两个部分：
（1）主机向本地域名服务器的查询采用的是递归查询
如果本地主机所询问的本地域名服务器不知道被查询域名的IP地址，那么本地域名服务器就以DNS客户的身份，向根域名服务器继续发出查询请求报文（即替该主机继续查询），而不是让该主机自己进行下一步的查询。在这种情况下，本地域名服务器只需向根域名服务器查询一次，后面的几次查询都是递归地在其他几个域名服务器之间进行的（见（a）图中的步骤3~6）。在（a）图中的步骤7中，本地域名服务器从根域名服务器得到了所需的IP地址，最后在步骤8中，本地域名服务器把查询结果告诉主机m.xyz.com
（2）本地域名服务器向根域名服务器的查询采用迭代查询
当根域名服务器收到本地域名服务器发出的迭代查询请求报文时，要么给出所要查询的IP地址，要么告诉本地域名服务器：“你下一步应当向哪个顶级域名服务器进行查询”。然后让本地域名服务器向这个顶级域名服务器进行后续的查询。同样，顶级域名服务器收到查询报文后，要么给出所要查询的IP地址，要么告诉本地域名服务器下一步应当向哪个权限域名服务器查询。最后，知道所要解析的域名的IP地址后，把这个结果返回给发起查询的主机。

假定某客户机想获知域名为y.abc.com主机的IP地址，域名解析的过程（共使用8个UDP报文）如下：
①客户机向其本地域名服务器发出DNS请求报文
②本地域名服务器收到请求后，查询本地缓存，若没有该记录，则以DNS客户的身份向根域名服务器发出解析请求
③根域名服务器收到请求后，判断该域名属于.com域，将对应的顶级域名服务器dns.com的IP地址返回给本地域名服务器
④本地域名服务器向顶级域名服务器dns.com发出解析请求报文
⑤顶级域名服务器dns.com收到请求后，判断该域名属于abc.com域，因此将对应的授权域名服务器dns.abc.com的IP地址返回给本地域名服务器
⑥本地域名服务器向授权域名服务器dns.abc.com发起解析请求报文
⑦授权域名服务器dns.abc.com收到请求后，将查询结果返回给本地域名服务器
⑧本地域名服务器将查询结果保存到本地缓存，同时返回给客户机

为了提高DNS的查询效率，并减少因特网上的DNS查询报文数量，在域名服务器中广泛地使用了高速缓存。当一个DNS服务器接收到DNS查询结果时，它能将该DNS信息缓存在高速缓存中。这样，当另一个相同的域名查询到达该DNS服务器时，该服务器就能够直接提供所要求的IP地址，而不需要再去向其他DNS服务器询问。因为主机名和IP地址之间的映射不是永久的，所以DNS服务器将在一段时间后丢弃高速缓存中的信息。

为保持高速缓存中的内容正确，域名服务器应为每项内容设置计时器，并处理超过合理时间的项（如每个项目只存放两天）。当权限域名服务器回答一个查询请求时，在响应中指明绑定有效存在的时间值。增加此时间值可减少网络开销，减少此时间值可以提高域名转换的准确性。

6.3 文件传输协议（FTP）

6.3.1 FTP的工作原理

FTP采用客户/服务器的工作方式，它使用TCP可靠的传输服务。一个FTP服务器进程可同时为多个客户进程提供服务。FTP的服务器进程由两大部分组成：一个主进程，负责接收新的请求；另外有若干从属进程，负责处理单个请求。其工作步骤如下：
①打开熟知端口21（控制端口），使客户进程能够连接上
②等待客户进程发连接请求
③启动从属进程来处理客户进程发来的请求。主进程与从属进程并发执行，从属进程对客户进程的请求处理完毕后即终止
④回到等待状态，继续接收其他客户进程的请求

6.3.2 控制连接与数据连接

FTP在工作时使用两个并行的TCP连接：一个是控制连接（端口号21），一个是数据连接（端口号20）。使用两个不同的端口号可使协议更加简单和更容易实现

1.控制连接

服务器监听21号端口，等待客户连接，建立在这个端口上的连接称为控制连接，控制连接用来传输控制信息（如连接请求、传送请求等），并且控制信息都以7位ASCII格式传送。FTP客户发出的传送请求，通过控制连接发送给服务器端的控制进程，但控制连接并不用来传送文件。在传输文件时还可以使用控制连接（如客户在传输中途发一个中止传输的命令），因此控制连接在整个会话期间一直保持打开状态。

2.数据连接

服务器端的控制进程在接收到FTP客户发来的文件传输请求后，就创建“数据传送进程”和“数据连接”。数据连接用来连接客户端和服务器端的数据传送进程，数据传送进程实际完成文件的传送，在传送完毕后关闭“数据传送连接”并结束运行。
因为FTP使用了一个分离的控制连接，所以也称FTP的控制信息是带外（Out-of-band）传送的。使用FTP时，若要修改服务器上的文件，则需要先将此文件传送到本地主机，然后再将修改后的文件副本传送到原服务器。

6.4 电子邮件

6.4.1 电子邮件系统的组成结构

电子邮件是一种异步通信方式，通信时不需要双方同时在场。电子邮件把邮件发送到收件人使用的邮件服务器，并放在其中的收件人邮箱中，收件人可以随时上网到自己使用的邮件服务器进行读取。
一个电子邮件系统应具有下图所示的三个最主要的组成构件，即用户代理（User Agent）、邮件服务器和电子邮件使用的协议，如SMTP、POP3（或IMAP）等。

用户代理（UA）：用户与电子邮件系统的接口。用户代理使用户能够通过一个很友好的接口发送和接收邮件，用户代理至少应当具有撰写、显示和邮件处理的能力。通常情况下，用户代理就是一个运行在PC上的程序，常见的有Outlook、Foxmail等
邮件服务器：组成电子邮件系统的核心。邮件服务器的功能是发送和接收邮件，同时还要向发信人报告邮件传送的情况（已交付、被拒绝、丢失等）。邮件服务器采用客户/服务器方式工作，但它能够同时充当客户和服务器。例如，当邮件服务器A向邮件服务器B发送邮件时，A就作为SMTP客户，而B是SMTP服务器；反之，当B向A发送邮件时，B就是SMTP客户，而A就是SMTP服务器。
邮件发送协议和读取协议：邮件发送协议用于用户代理向邮件服务器发送邮件或在邮件服务器之间发送邮件，通常使用的是SMTP；邮件读取协议用于用户代理从邮件服务器读取邮件，如POP3。 SMTP采用的是“推”（Push）的通信方式，即在用户代理向邮件服务器发送邮件及在邮件服务器之间发送邮件时，SMTP客户端主动将邮件“推”送到SMTP服务器端。而POP3采用的是“拉”（Pull）的通信方式，即用户读取邮件时，用户代理向邮件服务器发出请求，“拉”取用户邮箱中的邮件。

下面简单介绍电子邮件的收发过程：
①发信人调用用户代理来撰写和编辑要发送的邮件。用户代理用SMTP把邮件传送给发送方邮件服务器
②发送方邮件服务器将邮件放入邮件缓存队列中，等待发送
③运行在发送方邮件服务器的SMTP客户进程，发现邮件缓存中有待发送的邮件，就向运行在接收方邮件服务器的SMTP服务器进程发起建立TCP连接
④TCP连接建立后，SMTP客户进程开始向远程SMTP服务器进程发送邮件。当所有待发送邮件发完后，SMTP就关闭所建立的TCP连接
⑤运行在接收方邮件服务器中的SMTP服务器进程收到邮件后，将邮件放入收信人的用户邮箱，等待收信人在方便时进行读取
⑥收信人打算收信时，调用用户代理，使用POP3（或IMAP）协议将自己的邮件从接收方邮件服务器的用户邮箱中取回（如果邮箱中有来信的话）

2.多用途网际邮件扩充（MIME）

由于SMTP只能传送一定长度的ASCII码，许多其他非英语国家的文字就无法传送，且无法传送可执行文件及其他二进制对象，因此提出了多用途网络邮件扩充（Multipurpose Internet Mail Extensions,MIME）
MIME并未改动SMTP或取代它。MIME的意图是继续使用目前的格式，但增加了邮件主体的结构，并定义了传送非ASCII码的编码规则。也就是说，MIME邮件可在现有的电子邮件程序和协议下传送。MIME与SMTP的关系如图：

6.4.3 SMTP和POP3

1.SMTP

简单邮件传输协议（Simple Mail Transfer Protocol，SMTP）是一种提供可靠且有效的电子邮件传输的协议，它控制两个相互通信的SMTP进程交换信息。由于SMTP使用客户/服务器方式，因此负责发送邮件的SMTP进程就是SMTP客户，而负责接收邮件的SMTP进程就是SMTP服务器。SMTP使用的是TCP连接，端口号为25。 SMTP通信有以下三个阶段：
（1）连接建立
发件人的邮件发送到发送方邮件服务器的邮件缓存中后，SMTP客户就每隔一定时间对邮件缓存扫描一次。如发现有邮件，就使用SMTP的熟知端口号（25）与接收方邮件服务器的SMTP服务器建立TCP连接。连接建立后，接收方SMTP服务器发出220 Service ready（服务就绪）。然后SMTP客户向SMTP服务器发送HELO命令，附上发送方的主机名。
SMTP不使用中间邮件服务器。TCP连接总是在发送方和接收方这两个邮件服务器之间直接建立，而不管它们相隔多远。接收方的邮件服务器因故障暂时不能建立连接时，发送方的邮件服务器只能等待一段时间后再次尝试连接。
（2）邮件传送
连接建立后，就可开始传送邮件。邮件的传送从MAIL命令开始，MAIL命令后面有发件人的地址。如MAIL FROM：hoopdog@hust.edu.cn。若SMTP服务器已准备好接收邮件，则回答250 OK。接着SMTP客户端发送一个或多个RCPT（收件人recipient的缩写）命令，格式为RCPT TO：<收件人地址>。每发送一个RCPT命令，都应有相应的信息从SMTP服务器返回，如250OK或550 No such user here（无此用户）
RCPT命令的作用是，先弄清接收方系统是否已做好接收邮件的准备，然后才发送邮件，以便不至于发送了很长的邮件后才知道地址错误，进而避免浪费通信资源。
获得OK的回答后，客户端就使用DATA命令，表示要开始传输邮件的内容。正常情况下，SMTP服务器回复信息是354 Start mail input;end with < CRIF >.< CRIF >。< CRIF >表示回车换行。此时SMTP客户端就可开始传送邮件内容，并用< CRIF >.< CRIF >（两个回车，中间一个点）表示邮件内容的结束。
（3）连接释放
邮件发送完毕后，SMTP客户应发送QUIT命令。SMTP服务器返回的信息是221（服务关闭），表示SMTP同意释放TCP连接。邮件传送的全部过程就此结束。

2.POP3

邮局协议（Post Office Protocol,POP）是一个非常简单但功能有限的邮件读取协议，现在使用的是它的第三个版本POP3。POP3采用的是“拉”（Pull）的通信方式，当用户读取邮件时，用户代理向邮件服务器发出请求，“拉”取用户邮箱中的邮件。
POP也使用客户/服务器的工作方式，在传输层使用TCP，端口号为110。接收方的用户代理上必须运行POP客户程序，而接收方的邮件服务器上则运行POP服务器程序。POP有两种工作方式：“下载并保留”和“下载并删除”。在“下载并保留”方式下，用户从邮件服务器上读取邮件后，邮件依然会保存在邮件服务器上，用户可再次从服务器上读取该邮件；而使用“下载并删除”方式时，邮件一旦被读取，就在邮件服务器上被删除，用户不能再次从服务器上读取。

目前有很多基于万维网的电子邮件，如Hotmail、Gmail等。这种电子邮件的特点是，用户浏览器与Hotmail或Gmail的邮件服务器之间的邮件发送或接收使用的是HTTP，而仅在不同邮件服务器之间传送邮件时才使用SMTP。

6.5 万维网（WWW）

6.5.1 WWW的概念与组成结构

万维网（World Wide Web，WWW）是一个资料空间，在这个空间中：一样有用的事物称为一种“资源”，并由一个全域“统一资源定位符”（URL）标识。这些资源通过超文本传输协议（HTTP）传送给使用者，而后者通过单击链接来获取资源。
万维网使用链接的方法能让用户非常方便地从因特网上的一个站点访问另一个站点，从而主动地按需获取丰富的信息。超文本标记语言（HyperText Markup Language,HTML）使得万维网页面的设计者可以很方便地用一个超链接从本页面的某处链接到因特网上的任何一个万维网页面，并能够在自己的计算机屏幕上显示这些页面。
万维网的内核部分是由三个标准构成的：
（1）统一资源定位符（URL）
负责标识万维网上的各种文档，并使每个文档在整个万维网的范围内具有唯一的标识符URL。
（2）超文本传输协议（HTTP）
一个应用层协议，它使用TCP连接进行可靠的传输， HTTP是万维网客户程序和服务器程序之间交互所必须严格遵守的协议
（3）超文本标记语言（HTML）
一种文档结构的标记语言，它使用一些约定的标记对页面上的各种信息（包括文字、声音、图像、视频等）、格式进行描述

URL是对可以从因特网上得到的资源的位置和访问方法的一种简洁表示。URL相当于一个文件名在网络范围的扩展。
URL的一般形式是：<协议>://<主机>:<端口>/<路径>
常见的<协议>有http、ftp等；<主机>是存放资源的主机在因特网中的域名，也可以是IP地址；<端口>和<路径>有时可以省略。
万维网以客户/服务器方式工作。浏览器是在用户计算机上的万维网客户程序，而万维网文档所驻留的计算机则运行服务器程序，这台计算机称万维网服务器。客户程序向服务器程序发出请求，服务器程序向客户程序送回客户所要的文档。工作流程如下：
（1）Web用户使用浏览器（指定URL）与Web服务器建立连接，并发送浏览请求
（2）Web服务器把URL转换为文件路径，并返回信息给Web浏览器
（3）通信完成，关闭连接

6.5.2 超文本传输协议（HTTP）

HTTP定义了浏览器（万维网客户进程）怎样向万维网服务器请求万维网文档，以及服务器怎样把文档传送给浏览器。从层次的角度看，HTTP是面向事务的（Transaction-oriented）应用层协议，它规定了在浏览器和服务器之间的请求和响应的格式与规则，是万维网上能够可靠地交换文件（包括文本、声音、图像等各种多媒体文件）的重要基础

1.HTTP的操作过程

从协议执行过程来说，浏览器要访问WWW服务器时，首先要完成对WWW服务器的域名解析。一旦获得了服务器的IP地址，浏览器就通过TCP向服务器发送连接建立请求。

万维网的大致工作过程如上图所示。每个万维网站点都有一个服务器进程，它不断地监听TCP的端口80（默认），当监听到连接请求后便与浏览器建立连接。TCP连接建立后，浏览器就向服务器发送请求获取某个Web页面的HTTP请求。服务器收到HTTP请求后，将构建所请求Web页的必需信息，并通过HTTP响应返回给浏览器。浏览器再将信息进行解释，然后将Web页显示给用户。最后，TCP连接释放。
在浏览器和服务器之间的请求与响应的交互，必须遵循规定的格式和规则，这些格式和规则就是HTTP。因此HTTP有两类报文：请求报文（从Web客户端向Web服务器发送服务请求）和响应报文（从Web服务器对Web客户端请求的回答）
用户单击鼠标后发生的事件按顺序如下（以访问清华大学的网站为例）：
（1）浏览器分析链接指向页面的URL（http://www.tsinghua.edu.cn/chn/index.htm）
（2）浏览器向DNS请求解析www.tsinghua.edu.cn的IP地址
（3）域名系统DNS解析出清华大学服务器的IP地址
（4）浏览器与该服务器建立TCP连接（默认端口号为80）
（5）浏览器发出HTTP请求：GET /chn/index.htm
（6）服务器通过HTTP响应把文件index.htm发送给浏览器
（7）TCP连接释放
（8）浏览器解释文件index.htm，并将Web页显示给用户

2.HTTP的特点

HTTP是无状态的。也就是说，同一个客户第二次访问同一个服务器上的页面时，服务器的响应与第一次被访问时的相同。因为服务器并不记得曾经访问过的这个客户，也不记得为该客户曾经服务过多少次
HTTP的无状态特性简化了服务器的设计，使服务器更容易支持大量并发的HTTP请求。在实际应用中，通常使用Cookie加数据库的方式来跟踪用户的活动。Cookie是一个存储在用户主机中的文本文件，里面含有一串“识别码”，如“123456”，用于Web服务识别用户。Web服务器根据Cookie就能从数据库中查询到该用户的活动记录，进而执行一些个性化的工作，如根据用户之前浏览过的商品向其推荐新产品等。
HTTP采用TCP作为传输层协议，保证了数据的可靠传输。 HTTP不必考虑数据在传输过程中被丢弃后又怎样被重传。但是，HTTP本身是无连接的。也就是说，虽然HTTP使用了TCP连接，但通信的双方在交换HTTP报文之前不需要先建立HTTP连接。
HTTP既可以使用非持久连接，也可以使用持久连接（HTTP/1.1支持）
对于非持久连接，每个网页元素对象（如JPEG图形、Flash等）的传输都需要单独建立一个TCP连接，如下图所示（第三次握手的报文段中捎带了客户对万维网文档的请求）。也就是说，请求一个万维网文档所需的时间是该文档的传输时间（与文档大小成正比）加上两倍往返时间RTT（一个RTT用于TCP连接，另一个RTT用于请求和接收文档）

所谓持久连接，是指万维网服务器在发送响应后仍然保持这条连接，使同一个客户和服务器可以继续在这条连接上传送后续的HTTP请求与响应报文。

持久连接又分为非流水线和流水线两种方式。对于非流水线方式，客户在收到前一个响应后才能发出下一个请求。HTTP/1.1的默认方式是使用流水线的持久连接。这种情况下，客户每遇到一个对象引用就立即发出一个请求，因而客户可以逐个地连续发出对各个引用对象的请求。如果所有的请求和响应都是连续发送的，那么所有引用的对象共计经历1个RTT延迟，而不是像非流水线方式那样，每个引用都必须有1个RTT延迟。

3.HTTP的报文结构

HTTP是面向文本的（Text-Oriented），因此报文中的每个字段都是一些ASCII码串，并且每个字段的长度都是不确定的。有两类HTTP报文：
请求报文：从客户向服务器发送的请求报文
响应报文：从服务器到客户的回答

HTTP请求报文和响应报文都由三个部分组成。这两种报文格式的区别是开始行不同。
开始行：用于区分是请求报文还是响应报文。在请求报文中的开始行称为请求行，而在响应报文中的开始行称为状态行。开始行的三个字段之间都以空格分隔，最后的“CR”和“LF”分别代表“回车”和“换行”。请求报文的“请求行”有三个内容：方法、请求资源的URL及HTTP的版本。其中，方法是对所请求对象进行的操作，这些方法实际上也就是一些命令。下表给出了HTTP请求报文中常用的几个方法：

首部行：用来说明浏览器、服务器或报文主体的一些信息。在每个首部行都有首部字段名和它的值，每行在结束的地方都要有“回车”和“换行”。整个首部结束时，还有一空行将首部行和后面的实体主体分开。
实体主体：在请求报文中一般不用这个字段，而在响应报文中也可能没有这个字段

下图为捕获的HTTP请求报文的示例：

在上图所示的以太网数据帧中，第1~6个字节为目的MAC地址（默认网关地址），即00-0f-e2-3f-27-3f；第7 ~12个字节为本机MAC地址，即00-27-13-67-73-8d；第13 ~14个字节08 ~00为类型字段，表示上层使用的是IP数据报协议。第15 ~34个字节（共20B）为IP数据报的首部，其中第27 ~30个字节为源IP地址，即db-df-d2-70，转换为十进制为219.223.210.112；第31 ~34个字节为目的IP地址，即71-69-4e-0a，转换成十进制为113.105.78.10。第35 ~ 54个字节（共20B）为TCP报文段的首部
从第55个字节开始才是TCP数据部分（阴影），即从应用层传递下来的数据（本例中为请求报文），GET对应请求行的方法，/face/20.gif对应请求行的URL，HTTP/1.1对应请求行的版本，左边数字是对应字符的ASCII码，如‘G’=0x47、‘E’=0x45

常见应用层协议见下表：

客户进程端口号与服务器进程端口：
通常我们所说的熟知端口号是应用层协议在服务器端的默认端口号，而客户端进程的端口号是由客户端进程任意指定的（临时的）
当客户进程向服务器进程发出建立连接请求时，要寻找连接服务器进程的熟知端口号，同时还要告诉服务器进程自己的临时端口号。接着，服务器进程就用自己的熟知端口号与客户进程所提供的端口号建立连接。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/153778.html