第一篇? ? ?網(wǎng)站基礎(chǔ)知識(shí)
本篇主要內(nèi)容主要包括網(wǎng)站架構(gòu)的演變、web中涉及的協(xié)議、協(xié)議的實(shí)現(xiàn)方法、java中的Servlet以及Tomcat的分析。
第一章 網(wǎng)站架構(gòu)及其演變過程
1.1 軟件的三大類型
軟件的三大類型包括:?jiǎn)螜C(jī)類型、CS類型和BS類型,其中現(xiàn)在使用最廣的是BS,因?yàn)樗_發(fā)簡(jiǎn)單、使用方便而且功能強(qiáng)大。但BS結(jié)構(gòu)在靈活性和處理效率上都不如CS結(jié)構(gòu),所以想QQ等軟件使用的還是CS結(jié)構(gòu)。
如圖
1.2 基礎(chǔ)的結(jié)構(gòu)并不簡(jiǎn)單
前面說的BS的結(jié)構(gòu)是最簡(jiǎn)單的結(jié)構(gòu),但它的底層實(shí)現(xiàn)也并不簡(jiǎn)單。因?yàn)樗枰ㄟ^互聯(lián)網(wǎng)傳輸數(shù)據(jù),而互聯(lián)網(wǎng)是一個(gè)錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)。BS結(jié)構(gòu)網(wǎng)絡(luò)傳輸有兩種參考模型:一種是標(biāo)準(zhǔn)的OSI參考模型,另外一種是TCP/IP參考模型。
如圖
OSI參考模型共分為7層,主要用于教學(xué),實(shí)際中更多使用的是TCP/IP的4層模型,分別為網(wǎng)絡(luò)接入層、網(wǎng)際互連層、傳輸層和應(yīng)用層。
網(wǎng)站架構(gòu)要解決的兩個(gè)最核心的問題:海量數(shù)據(jù)操作問題和高并發(fā)問題。
1.3 架構(gòu)演變的起點(diǎn)
從一臺(tái)服務(wù)器到數(shù)據(jù)和應(yīng)用的分離。
1.4海量數(shù)據(jù)的解決方案
1.4.1 緩存和頁(yè)面靜態(tài)化
數(shù)據(jù)量大直接的解決方案就是使用緩存。使用緩存的方式可以分為通過程序直接保存到內(nèi)存中和使用緩存框架兩種。程序直接操作主要使用Map,尤其是ConcurrentHashMap(參見:http://www.importnew.com/22007.html);常用的緩存框架有Ehcache、Memcache和Redis等。緩存使用過程中最重要的問題是什么時(shí)候創(chuàng)建緩存和緩存的失效機(jī)制。
緩存不適用的場(chǎng)景:數(shù)據(jù)變化頻繁、數(shù)據(jù)實(shí)時(shí)性要求高。
頁(yè)面靜態(tài)化,也可以理解為另外一種形式的緩存,緩存是將從數(shù)據(jù)庫(kù)獲取到的數(shù)據(jù)保存起來(lái),而頁(yè)面靜態(tài)化是將程序最后生成的頁(yè)面保存起來(lái),不但不需要查詢數(shù)據(jù)庫(kù),而且連應(yīng)用程序處理都省了,所以頁(yè)面靜態(tài)化同時(shí)對(duì)數(shù)據(jù)量大河并發(fā)量高兩大問題都有好處。
1.4.2 數(shù)據(jù)庫(kù)優(yōu)化
常用的有表結(jié)構(gòu)優(yōu)化、SQL語(yǔ)句優(yōu)化、分區(qū)和分表、索引優(yōu)化、使用存儲(chǔ)過程代替直接操作,另外有時(shí)也可以使用冗余。
表結(jié)構(gòu)優(yōu)化
沒有不變的準(zhǔn)則,需要根據(jù)實(shí)際情況具體處理
SQL語(yǔ)句優(yōu)化
基礎(chǔ)優(yōu)化是語(yǔ)法層面的優(yōu)化,更重要的是處理邏輯的優(yōu)化,也需要根據(jù)具體情況進(jìn)行處理。
分區(qū)
分區(qū)是將一張表中的數(shù)據(jù)按照一定的規(guī)則分到不同的區(qū)來(lái)保存,這樣在查詢時(shí)如果數(shù)據(jù)范圍在同一個(gè)區(qū)內(nèi)那么可以只對(duì)一個(gè)區(qū)的數(shù)據(jù)進(jìn)行操作,這樣操作的數(shù)據(jù)量更少,速度更快。
分表
如果一張表中的數(shù)據(jù)可以分為幾種固定不變的類型,而且如果同時(shí)對(duì)多種類型共同操作的情況不多,那么都可以通過分表來(lái)處理。
索引優(yōu)化
索引是一把雙刃劍,它咋提高查詢速度的同時(shí)也降低了增刪改的速度,因?yàn)槊看螖?shù)據(jù)變化都需要更新相應(yīng)的索引。所以對(duì)哪些字段使用索引、使用什么類型的索引都需要仔細(xì)琢磨。
使用存儲(chǔ)過程代替直接操作
存儲(chǔ)過程只編譯一次,所以當(dāng)有操作過程復(fù)雜而且調(diào)用頻率高的業(yè)務(wù),可以使用存儲(chǔ)過程代替直接操作。
1.4.3 分離活躍數(shù)據(jù)
通過將不活躍數(shù)據(jù)分離,減小活躍數(shù)據(jù)的數(shù)據(jù)量,可以明顯提高查詢效率。
1.4.4 批量讀取和延遲修改
批量讀取和延遲修改都是通過減少操作次數(shù)來(lái)提高效率。
批量讀取是將多次查詢合并到一次中進(jìn)行。可以將一個(gè)請(qǐng)求的多次查詢進(jìn)行合并,也可以將一定時(shí)間范圍內(nèi)的多個(gè)請(qǐng)求的多次查詢合并到一起統(tǒng)一查詢一次數(shù)據(jù)庫(kù)。
延遲修改主要是針對(duì)高并發(fā)而且頻繁修改的數(shù)據(jù)。可能引起緩存和數(shù)據(jù)庫(kù)的數(shù)據(jù)不一致,所以重要的數(shù)據(jù)需要做特殊處理。
1.4.5 讀寫分離
讀寫分離本質(zhì)上是對(duì)數(shù)據(jù)庫(kù)進(jìn)行集群,將寫入庫(kù)作為主庫(kù),讀庫(kù)作為從庫(kù),關(guān)鍵問題是數(shù)據(jù)同步問題。
1.4.6 分布式數(shù)據(jù)庫(kù)
分布式是對(duì)一個(gè)請(qǐng)求的并行處理,將不同表放到不同的數(shù)據(jù)庫(kù)服務(wù)器上,如果需要?jiǎng)t可以讓多臺(tái)服務(wù)器同時(shí)處理,從而提高處理速度。
1.4.7 NoSQL和Hadoop
NoSQL通過多個(gè)塊存儲(chǔ)數(shù)據(jù)的特點(diǎn),其操作大數(shù)據(jù)的速度也非常快。
Hadoop是將同一個(gè)表中的數(shù)據(jù)分成多塊保存到多個(gè)節(jié)點(diǎn)(分布式),而且每一塊數(shù)據(jù)都有多個(gè)節(jié)點(diǎn)保存(集群),保證了效率和數(shù)據(jù)完整性。
1.5 高并發(fā)的解決方案
1.5.1 應(yīng)用和靜態(tài)資源分離
靜態(tài)資源因?yàn)闆]有狀態(tài),所以分離簡(jiǎn)單,一般會(huì)使用專門的域名去訪問。
1.5.2 頁(yè)面緩存
頁(yè)面緩存是將應(yīng)用生成的頁(yè)面緩存起來(lái),這樣就不需要每次都重新生成頁(yè)面,節(jié)省CPU資源。頁(yè)面緩存的默認(rèn)失效機(jī)制一般是按緩存時(shí)間處理的,也可以手動(dòng)讓相應(yīng)的緩存失效。
使用頁(yè)面緩存和AJAX可以兼顧效率和動(dòng)態(tài)數(shù)據(jù)實(shí)時(shí)刷新。
1.5.3 集群與分布式
集群式每臺(tái)服務(wù)器都有相同的功能,處理請(qǐng)求時(shí)調(diào)用哪臺(tái)服務(wù)器都可以,主要起分流的作用;分布式是將不同的業(yè)務(wù)放到不同的服務(wù)器中,處理一個(gè)請(qǐng)求需要用到多臺(tái)服務(wù)器,這樣可以提高一個(gè)請(qǐng)求的處理速度。
集群兩中類型:靜態(tài)資源集群和應(yīng)用程序集群。問題主要是session共享。
1.5.4 反向代理
反向代理是指客戶直接訪問的服務(wù)器并不真正提供服務(wù),它從其他服務(wù)器獲取資源后將結(jié)果返回給用戶。
三個(gè)作用:
1、可以作為前端服務(wù)器跟實(shí)際處理請(qǐng)求的服務(wù)器集成
2、可以用作負(fù)載均衡
3、轉(zhuǎn)發(fā)請(qǐng)求。
1.5.5 CDN
CDN的服務(wù)器是分布在全國(guó)各地的,當(dāng)接收到請(qǐng)求后會(huì)將請(qǐng)求分配到最合適的CDN服務(wù)器節(jié)點(diǎn)獲取數(shù)據(jù)。
CDN分配請(qǐng)求的方式比較特殊,使用專門的CDN域名解析服務(wù)器在解析的是候就分配好的,一般是在IPS那里使用CNAME將域名解析到一個(gè)特定域名,然后再將解析到的那個(gè)域名用專門的CDN服務(wù)器解析到相應(yīng)的CDN節(jié)點(diǎn)。
1.6 底層的優(yōu)化
優(yōu)化網(wǎng)絡(luò)傳輸i協(xié)議,比如Google的quic、Spdy等,還有HTTP/2。