當(dāng)往瀏覽器地址欄輸入一串地址敲下回車鍵,瀏覽器就會(huì)給我們展示出一個(gè)可視化的頁(yè)面。看似很簡(jiǎn)單的操作,但背后凝聚了多年來(lái)IT人員的辛苦耕耘。我上家公司里經(jīng)常喜歡拿這個(gè)問(wèn)題來(lái)當(dāng)作面試題,現(xiàn)在我是沒(méi)有這個(gè)當(dāng)面試官的機(jī)會(huì)了。
一次請(qǐng)求大致過(guò)程包括:域名解析 --> 發(fā)起TCP的3次握手 --> 建立TCP連接后發(fā)起http請(qǐng)求 --> 服務(wù)器響應(yīng)http請(qǐng)求 --> 瀏覽器得到html代碼 --> 瀏覽器解析html代碼,并請(qǐng)求html代碼中的資源(如js、css、圖片等) --> 瀏覽器對(duì)頁(yè)面進(jìn)行渲染呈現(xiàn)給用戶
當(dāng)訪問(wèn)一個(gè)域名地址時(shí),瀏覽器首先要把域名解析成公網(wǎng)IP地址,這一步是通過(guò)DNS來(lái)解析,會(huì)訪問(wèn)DNS服務(wù)商查找域名對(duì)應(yīng)的IP,查找到后會(huì)把結(jié)果緩存下來(lái),后面對(duì)該域名的訪問(wèn)就不再進(jìn)行DNS解析,瀏覽器第一次打開(kāi)一個(gè)網(wǎng)站時(shí)會(huì)比較慢這個(gè)DNS初次解析是慢的原因之一。當(dāng)然瀏覽器會(huì)先檢查緩存中域名對(duì)應(yīng)的IP有沒(méi)有,然后檢查本地的hosts有沒(méi)有配置該域名,都沒(méi)有的話才會(huì)去訪問(wèn)DNS服務(wù)商。如果是內(nèi)部網(wǎng)絡(luò)需要通過(guò)網(wǎng)關(guān)才能上網(wǎng)的,這里還可能會(huì)發(fā)生一次ARP廣播查找網(wǎng)關(guān)機(jī)器。當(dāng)同一子網(wǎng)內(nèi)直接通過(guò)IP通信時(shí)也需要ARP廣播來(lái)找到目的機(jī)器的Mac地址。
拿到IP之后,客戶端首先要通過(guò)TCP三次握手來(lái)建立連接, TCP協(xié)議會(huì)對(duì)請(qǐng)求數(shù)據(jù)包進(jìn)行封裝并由IP協(xié)議進(jìn)行傳輸,ICMP協(xié)議進(jìn)行控制,中間會(huì)經(jīng)過(guò)不同的路由器最終到達(dá)目的主機(jī)的網(wǎng)卡接口,這中間的過(guò)程我是講不明白,也不太清楚,省略。
說(shuō)說(shuō)TCP三次握手吧,TCP協(xié)議通過(guò)三次握手建立一個(gè)可靠的連接,TCP是IP的上層協(xié)議,反正IP層是并不知道什么三次握手四次揮手,IP只管運(yùn)輸數(shù)據(jù)。第一次握手:Client首先發(fā)送一個(gè)連接試探,ACK=0 表示確認(rèn)號(hào)無(wú)效,SYN = 1 表示這是一個(gè)連接請(qǐng)求或連接接受報(bào)文,同時(shí)表示這個(gè)數(shù)據(jù)報(bào)不能攜帶數(shù)據(jù),seq = x 表示Client自己的初始序號(hào)(seq = 0 就代表這是第0號(hào)包),這時(shí)候Client進(jìn)入syn_sent狀態(tài),表示客戶端等待服務(wù)器的回復(fù)。第二次握手:Server監(jiān)聽(tīng)到連接請(qǐng)求報(bào)文后,如同意建立連接,則向Client發(fā)送確認(rèn)。TCP報(bào)文首部中的SYN 和 ACK都置1 ,ack = x + 1表示期望收到對(duì)方下一個(gè)報(bào)文段的第一個(gè)數(shù)據(jù)字節(jié)序號(hào)是x+1,同時(shí)表明x為止的所有數(shù)據(jù)都已正確收到(ack=1其實(shí)是ack=0+1,也就是期望客戶端的第1個(gè)包),seq = y 表示Server 自己的初始序號(hào)(seq=0就代表這是服務(wù)器這邊發(fā)出的第0號(hào)包)。這時(shí)服務(wù)器進(jìn)入syn_rcvd,表示服務(wù)器已經(jīng)收到Client的連接請(qǐng)求,等待client的確認(rèn)。第三次握手:Client收到確認(rèn)后還需再次發(fā)送確認(rèn),同時(shí)攜帶要發(fā)送給Server的數(shù)據(jù)。ACK 置1 表示確認(rèn)號(hào)ack= y + 1 有效(代表期望收到服務(wù)器的第1個(gè)包),Client自己的序號(hào)seq= x + 1(表示這就是我的第1個(gè)包,相對(duì)于第0個(gè)包來(lái)說(shuō)的),一旦收到Client的確認(rèn)之后,這個(gè)TCP連接就進(jìn)入Established狀態(tài),完成三次握手,就可以發(fā)起http請(qǐng)求,發(fā)送正常的請(qǐng)求數(shù)據(jù)包。TCP為什么要進(jìn)行三次握手呢,大致講就是為了確認(rèn)雙方機(jī)器是否正常,網(wǎng)絡(luò)通不通,通信協(xié)議是否支持。
IP協(xié)議只認(rèn)IP地址,TCP在IP之上添加了端口,通過(guò)端口來(lái)區(qū)分不同的應(yīng)用程序。當(dāng)然我們并不是直接操作TCP/IP的,它之上還抽象了一個(gè)Socket層,HTTP也是建立在Socket之上進(jìn)行通信。一個(gè)socket是由一個(gè)五元組來(lái)唯一標(biāo)示的,即(協(xié)議,server_ip, server_port, client_ip, client_port)。只要該五元組中任何一個(gè)值不同,則其代表的socket就不同。Socket對(duì)外抽象出了bind,listen,accept以及send,write等幾個(gè)基本的操作。就跟常見(jiàn)的文件操作一樣(在Linux看來(lái),什么都可以是文件)。
服務(wù)端首先需要幫定端口并監(jiān)聽(tīng)請(qǐng)求 new ServerSocket(80).accept() ,這里幫定了80端口后,其它應(yīng)用程序就不能再使用該端口了,一個(gè)指定的端口號(hào)不能被多個(gè)程序共用。這其實(shí)是向TCP/IP協(xié)議棧聲明了其對(duì)80端口的占有,以后,所有目標(biāo)是80端口的TCP數(shù)據(jù)包都會(huì)轉(zhuǎn)發(fā)給該程序??蛻舳藭?huì)以一個(gè)隨機(jī)端口(大于1024并小于65535)向服務(wù)器的WEB程序(如nginx)80端口發(fā)起TCP的連接請(qǐng)求,由accept接收。所謂accept函數(shù),其實(shí)抽象的是TCP的連接建立過(guò)程,當(dāng)客戶端有一個(gè)新的請(qǐng)求過(guò)來(lái)后,accept函數(shù)返回的新socket其實(shí)指代的是本次創(chuàng)建的連接,accept可以產(chǎn)生多個(gè)不同的socket,這個(gè)socket跟文件句柄很相似,可以認(rèn)為它是用來(lái)區(qū)分不同的連接請(qǐng)求然后回調(diào)不同的處理程序。創(chuàng)建的socket中包含了客戶端的IP及Port、服務(wù)端的IP及Port,這其中服務(wù)端的IP及Port都是一樣的。服務(wù)端Socket雖然只占用了一個(gè)端口,但accept創(chuàng)建的Socket在Linux中也是一種特殊的文件,自然也受到Linux文件描述符的限制。建立連接也并不是真在存在這樣一條連著的連接。
Socket在Linux上還涉及到epoll,它是Linux內(nèi)核為處理大批量文件描述符而作了改進(jìn)的poll,是Linux下多路復(fù)用IO接口select/poll的增強(qiáng)版本,它能顯著提高程序在大量并發(fā)連接中只有少量活躍的情況下的系統(tǒng)CPU利用率。另一點(diǎn)原因就是獲取事件的時(shí)候,它無(wú)須遍歷整個(gè)被偵聽(tīng)的描述符集,只要遍歷那些被內(nèi)核IO事件異步喚醒而加入Ready隊(duì)列的描述符集合就行了。epoll除了提供select/poll那種IO事件的水平觸發(fā)(Level Triggered)外,還提供了邊緣觸發(fā)(Edge Triggered),這就使得用戶空間程序有可能緩存IO狀態(tài),減少epoll_wait/epoll_pwait的調(diào)用,提高應(yīng)用程序效率。
建立連接后就開(kāi)始進(jìn)行HTTP請(qǐng)求報(bào)文和響應(yīng)報(bào)文流程,HTTP協(xié)議報(bào)文是有它特定的格式,關(guān)于報(bào)文格式一篇文章也講不下,我也不是很清楚所有報(bào)文內(nèi)容。目前我們使用最流行是HTTP協(xié)議是1.1版本,它有更多的請(qǐng)求方法,更精細(xì)的緩存控制,持久連接支持。一個(gè)WEB站點(diǎn)每天可能要接收到上百萬(wàn)的用戶請(qǐng)求,為了提高系統(tǒng)的效率,HTTP 1.0規(guī)定瀏覽器與服務(wù)器只保持短暫的連接,瀏覽器的每次請(qǐng)求都需要與服務(wù)器建立一個(gè)TCP連接,服務(wù)器完成請(qǐng)求處理后立即斷開(kāi)TCP連接,服務(wù)器不跟蹤每個(gè)客戶也不記錄過(guò)去的請(qǐng)求。但是,這也造成了一些性能上的缺陷。為了克服HTTP 1.0的這個(gè)缺陷,HTTP 1.1支持持久連接,在一個(gè)TCP連接上可以傳送多個(gè)HTTP請(qǐng)求和響應(yīng),減少了建立和關(guān)閉連接的消耗和延遲。一個(gè)包含有許多圖像的網(wǎng)頁(yè)文件的多個(gè)請(qǐng)求和應(yīng)答可以在一個(gè)連接中傳輸,但每個(gè)單獨(dú)的網(wǎng)頁(yè)文件的請(qǐng)求和應(yīng)答仍然需要使用各自的連接。HTTP 1.1還允許客戶端不用等待上一次請(qǐng)求結(jié)果返回,就可以發(fā)出下一次請(qǐng)求,但服務(wù)器端必須按照接收到客戶端請(qǐng)求的先后順序依次回送響應(yīng)結(jié)果,以保證客戶端能夠區(qū)分出每次請(qǐng)求的響應(yīng)內(nèi)容,這樣也顯著地減少了整個(gè)下載過(guò)程所需要的時(shí)間。瀏覽器第一次訪問(wèn)一個(gè)網(wǎng)頁(yè),首先要建立一個(gè)連接需要三次握手,建立連接后也不是一股腦把所有請(qǐng)求都發(fā)出去,而是先發(fā)一個(gè)請(qǐng)求,成功返回后再發(fā)起兩次請(qǐng)求,然后再是四次請(qǐng)求,這個(gè)也是導(dǎo)致第一次訪問(wèn)頁(yè)面比較慢的一個(gè)小原因。
請(qǐng)求到達(dá)服務(wù)器之后,如果有Http Server,則由Http Server轉(zhuǎn)發(fā)請(qǐng)求,如果沒(méi)有就是直接請(qǐng)求Tomcat之類的應(yīng)用服務(wù)器,由它生成響應(yīng)內(nèi)容。響應(yīng)的內(nèi)容有可能是HTML,也有可能是JSON數(shù)據(jù)。在這其中也牽扯到負(fù)載均衡、集群、不同級(jí)別的緩存、消息處理、數(shù)據(jù)庫(kù)操作等等。這里面的東西夠?qū)慛篇文章,此處省略。
瀏覽器拿到html文件后,就開(kāi)始解析其中的html代碼,遇到j(luò)s/css/image等靜態(tài)資源時(shí),就向服務(wù)器端去請(qǐng)求下載(會(huì)使用多線程下載,每個(gè)瀏覽器的線程數(shù)不一樣)。瀏覽器在請(qǐng)求靜態(tài)資源時(shí)(在未過(guò)期的情況下),向服務(wù)器端發(fā)起一個(gè)http請(qǐng)求(詢問(wèn)自從上一次修改時(shí)間到現(xiàn)在有沒(méi)有對(duì)資源進(jìn)行修改),如果服務(wù)器端返回304狀態(tài)碼(告訴瀏覽器服務(wù)器端沒(méi)有修改),那么瀏覽器會(huì)直接讀取本地的該資源的緩存文件。
很多大型網(wǎng)站在一個(gè)頁(yè)面中會(huì)使用多個(gè)不同的域名,這里的主要原因有:1、CDN緩存更方便。2、突破瀏覽器并發(fā)限制,像地圖之類的需要大量并發(fā)下載圖片的站點(diǎn),這個(gè)非常重要,另一個(gè)重要因素是節(jié)約主域名的連接數(shù),說(shuō)起來(lái)就是分流。3、Cookieless,節(jié)省帶寬,尤其是上行帶寬一般比下行要慢,像主站用戶的每次訪問(wèn),都會(huì)帶上自己的cookie,挺大的。假如twitter的圖片放在主站域名下,那么用戶每次訪問(wèn)圖片時(shí),request header里就會(huì)帶有自己的cookie,header里的cookie還不能壓縮,而圖片是不需要知道用戶的cookie,所以這部分帶寬就白白浪費(fèi)了。4、對(duì)于UGC的內(nèi)容和主站隔離,防止不必要的安全問(wèn)題(上傳js竊取主站cookie之類的),正是這個(gè)原因要求用戶內(nèi)容的域名不是自己主站的子域名,而是一個(gè)完全獨(dú)立的第三方域名。5、數(shù)據(jù)做了劃分,甚至切到了不同的物理集群,通過(guò)子域名來(lái)分流比較省事,這個(gè)在分系統(tǒng)的時(shí)候用的比較多。最后,多域名也不是越多越好,雖然服務(wù)器端可以做泛解釋,瀏覽器做dns解釋也是耗時(shí)間,而且太多域名,如果要走h(yuǎn)ttps的話,還有要多買證書(shū)和部署的問(wèn)題。
如果靜態(tài)資源使用了CDN,則會(huì)向CDN請(qǐng)求靜態(tài)資源。CDN即內(nèi)容分布網(wǎng)絡(luò)(Content Delivery Network),它是構(gòu)筑在現(xiàn)有Internet上的一種先進(jìn)的流量分配網(wǎng)絡(luò)。其目的是通過(guò)現(xiàn)有的Internet中增加一層新的網(wǎng)絡(luò)架構(gòu),將網(wǎng)站的內(nèi)容發(fā)布到最接近用戶的網(wǎng)絡(luò)“邊緣”,使用戶可以就近取得所需的內(nèi)容,提高用戶訪問(wèn)網(wǎng)站的響應(yīng)速度。
瀏覽器利用自己內(nèi)部的工作機(jī)制,把請(qǐng)求到的靜態(tài)資源和html代碼進(jìn)行渲染,渲染之后呈現(xiàn)給用戶。自此一次完整的HTTP事務(wù)宣告完成。
來(lái)個(gè)題外話,服務(wù)器單機(jī)最大連接數(shù)問(wèn)題。TCP的端口數(shù)最大值為65535,但單個(gè)服務(wù)器程序可承受最大連接數(shù)和這個(gè)沒(méi)有關(guān)系,因?yàn)榉?wù)端實(shí)際上只使用到了一個(gè)端口。Linux上連接并發(fā)數(shù)的限制有:可打開(kāi)文件數(shù)限制、內(nèi)存容量、CPU資源。上面也講到了一個(gè)連接就是一個(gè)Socket,一個(gè)Socket就是一個(gè)打開(kāi)著的文件。每個(gè)連接都要消耗內(nèi)存,在Linux Epoll下并不是一個(gè)連接對(duì)應(yīng)一個(gè)線程,而是復(fù)用線程。但在Tomcat中一個(gè)連接對(duì)應(yīng)一個(gè)操作系統(tǒng)線程,線程共享進(jìn)程的堆空間,但每個(gè)線程都有自己的??臻g,一個(gè)棧要在內(nèi)核區(qū)及用戶區(qū)分別各占一塊內(nèi)存。線程和進(jìn)程一樣都是可以使用CPU分片時(shí)間,如果并發(fā)請(qǐng)求太高,則會(huì)導(dǎo)致過(guò)多的線程以及網(wǎng)絡(luò)中斷來(lái)消耗CPU資源,這個(gè)時(shí)會(huì)產(chǎn)生大量的上下文切換(內(nèi)核態(tài)及用戶態(tài)切換),這會(huì)使CPU大量消耗在任務(wù)調(diào)度上而不是實(shí)際的業(yè)務(wù)處理中。以及間接導(dǎo)致CPU緩存命中下降及失效問(wèn)題。也正是這個(gè)原因,所以一般都是一臺(tái)Nginx后面掛了一群Tomcat,Nginx進(jìn)程個(gè)數(shù)一般都是CPU邏輯個(gè)數(shù)(或是CPU個(gè)數(shù)減1,為了和網(wǎng)絡(luò)中斷錯(cuò)開(kāi)),避免上下文切換。