何為大型網站
大型網站特性
既然說的是大型網站架構,那么架構的背后自然是解決人因面對大型網站特性而帶來的問題。這樣可以先給大家說下大型網站的特性,這些特性帶來的問題就是人要解決的問題:
- 高并發、大流量:PV 量巨大;
- 高可用:7*24 小時不間斷服務;
- 海量數據:文件數目分分鐘 xxTB;
- 用戶分布廣泛,網絡情況復雜:網絡運營商;
- 安全環境惡劣:黑客的攻擊;
- 需求快速變更,發布頻繁:快速適應市場,滿足用戶需求;
- 漸進式發展:慢慢地運營出大型網站;
大型網站目標
既然說到了大型網站的特性,那么解決這些特性帶來的問題要達到什么目標呢?如下:
每個目標背后面臨著技術、設計、維護等諸多方面的挑戰; 而目標本身的期望值也會根據實際情況進行調整,這也意味著網站架構建設是個不斷調整的過程。
有了問題,也定了偉大的目標,那么網站在不同階段面對不同的問題,是如何解決的?又是如何一步步成長為大型網站架構,實現這些偉大的目標呢?
如何大型網站架構
大型網站架構的概念對于每一個開發者來說很籠統、很模糊,正如盲人摸象,看到的、了解到的只是很小的一部分,大部分情況下我們只是負責架構中的一小塊內容,所以很難清晰地給出具體定義。這就是所謂“不識廬山真面目 只緣身在此山中”的尷尬吧。所以我們要跳出來,站在宏觀的角度,從整體到細節實現來認識大型網站架構。
那么從宏觀的角度怎么去認識大型網站架構呢?正如前面幾篇《細品架構系列》所描述對架構的認識,按照問題識別—>概念認知—>架構切分的思路,來分析大型網站架構的誕生:
- 問題識別:當前什么問題、誰的問題、問題邊界;
- 概念認知:通過分析問題,會產生哪些概念,統一概念認知,達成溝通交流規范;
- 架構切分:根據概念來解決問題,如何架構切分,產生哪些架構,提出具體解決方案;
PS:上面的三個步驟具體如何識別、認知、切分,請詳細參考前面幾篇《細品架構系列》文章,可能使你會對架構有重新的認識。
在進行分析大型網站架構的演進之路前,首先我們要明確的兩個價值觀:
- 核心價值:隨網站所需靈活應對;大型網站不是從無到有一步就搭建好一個大型網站,而是能夠伴隨小型網站業務的漸進發展,慢慢地演化成一個大型網站;
- 驅動力量:網站的業務發展— 業務成就了技術,事業成就了人,而不是相反;
還有,大型網站架構演進必須避免的幾個誤區:
- 一味追隨大公司的解決方案;
- 為了技術而技術-->常見問題;
- 企圖用技術解決所有問題:技術是用來解決業務問題的,而業務的問題,也可以通過業務的手段去解決;
架構體系演進
單機時代
草根時期,快速開發網站并上線。當然,通常只是先試水,用戶規模也沒有形成,經濟能力和投入也非常有限。應用程序、數據庫、文件等所有資源都集中在一臺 Server上,典型案例:基于 LAMP 架構的 PHP 網站;
優點:簡單、快速迭代達成業務目標;
缺點:存在單點、談不上高可用;
技術點:應用設計要保證可擴展;
緩存出場
有一定的業務量和用戶規模了,想提升網站速度,于是,緩存出場了。
優點:簡單有效、方便維護;
缺點:存在單點、談不上高可用;
技術點:客戶端(瀏覽器)緩存、前端頁面緩存、頁面片段緩存、本地數據緩存/數據庫緩存、遠程緩存;
如上圖,緩存可以分為:
- 頁面緩存:客戶端緩存,減少對網站的訪問;
- 本地緩存:訪問速度快,但數據量有限,減少對DB查詢;
- 遠程緩存:遠程訪問,可以集群,因此容量不受限制;
數據服務與應用分離
市場反響還不錯,用戶量每天在增長,數據庫瘋狂讀寫,逐漸發現一臺服務器快撐不住了。于是,決定把數據服務和APP做分離。
優點:簡單有效、方便維護、提高不同Server對硬件資源的利用率;
缺點:存在單點、談不上高可用;
技術點:文件服務器部署、數據庫服務器,擴展數據訪問模塊;
分離后三臺 Server 對硬件資源的需求各不相同:
- 應用服務器:需要更快更強大的 CPU;
- 數據庫服務器:需要更快的硬盤和更大的內存;
- 文件服務器:需要更大的硬盤;
數據庫讀寫分離
單臺數據庫也感覺快撐不住了,一般都會嘗試做“讀寫分離”。由于大部分互聯網“讀多寫少”的特性所決定的。Salve的臺數,取決于按業務評估的讀寫比例。
優點:簡單有效、降低數據庫單臺壓力;
缺點:讀寫分離,增加程序難度,架構變復雜,維護難度增加;
技術點:數據庫主從同步部署,擴展數據訪問模塊,實現讀寫分離;
應用服務集群
數據庫層面是緩解了,但是應用程序層面也出現了瓶頸,由于訪問量增大,加上早期程序員水平有限寫的代碼也很爛,人員流動性也大,很難去維護和優化。所以,很常用的辦法還是“堆機器”。
優點:增加服務器和HA機制,系統性能及可用性得到保證;
缺點:應用之間緩存、Session一致性問題;
技術點:負載均衡;
通過集群解決高并發、海量數據問題的常用手段,實現系統的可伸縮性。通過負載均衡調度器,可將用戶訪問分發到集群中的某臺 Server 上,應用服務器的負載壓力不再成為整個網站的瓶頸。
集中式緩存、Session集中存儲
加機器誰都會加,關鍵是加完之后得有效果,加完之后可能會引發一些問題。例如非常常見的:集群應用之間頁面輸出緩存和本地緩存一致性的問題,Session保存的問題......。
優點:應用之間緩存、Session一致,存儲無限制,可以擴展;
缺點:不如本地緩存訪問快,緩存服務器、Session服務器等仍存在單點問題;
技術點:緩存服務器部署、Session集中存儲方案;
動靜分離
動靜分離也是提高網站響應速度的一種常用方式。將動態請求與靜態請求分離開,盡量減少對應用服務器的壓力。同時,可以再進一步對靜態請求,進行緩存,以加快響應速度。可以需要開發人員配合(把靜態資源放獨立站點下),也可以不需要開發人員配合(利用7層反向代理來處理,根據后綴名等信息來判斷資源類型)。
優點:減輕應用負載壓力,針對靜態文件緩存;
缺點:靜態文件緩存更新失效問題;
技術點:動靜分離、靜態文件緩存方案;
反向代理和CDN加速網站響應
使用反向代理和CDN加速網站響應:CDN 和反向代理的基本原理都是緩存,區別在于:
- CDN部署在網絡提供商的機房;
- 反向代理則部署在網站的中心機房;
使用 CDN 和反向代理的目的都是盡早返回數據給用戶,一方面加快用戶訪問速度,另一方面也減輕后端服務器的負載壓力。
優點:減輕應用負載壓力,異地緩存有效解決不同地方用戶訪問過慢的問題;
缺點:成本大幅增加,架構進一步復雜化,也維護難度進一步增大,靜態文件緩存更新失效問題;
技術點:CDN、反向代理方案;
使用NoSQL和搜索引擎
到這里,已經基本做到了DB層面和應用層面的橫向擴展了,可以開始關注一些其它方面,例如:站內搜索的精準度,對DB的依賴,開始引入全文索引、NoSQL。
NoSQL和搜索引擎都是源自互聯網的技術手段,對可伸縮的分布式特性具有更好的支持。應用服務器則通過一個統一數據訪問模塊訪問各種數據,減輕應用程序管理諸多數據源的麻煩。
優點:降低DB依賴;
缺點:單點問題,談不上高可用;
技術點:NoSQL、搜索引擎、分布式;
到目前為止,一個能夠承載日均百萬級訪問量的中型網站架構基本介紹完了。
如何保證高可用
在做擴展滿足了基本的性能需求后,我們會逐漸關注“可用性”(也就是我們通常聽別人吹牛時說的SLA、幾個9)。如何保證真正“高可用”,也是個難題。
對關鍵應用/服務,做集群冗余負載,這也是保證高可用比較常用的手段:
- 文件系統、數據庫系統集群;
- 靜態內容服務器集群;
- CDN服務器集群;
- 反向代理服務器集群;
- 負載均衡調度器集群;
- 分布式NoSQL服務器集群;
- 搜索引擎服務器集群;
- 分布式緩存服務器集群;
- 分布式Session服務器集群;
優點:集群負載,保證高可用;
缺點:數據一致性、數據有狀態問題;
技術點:負載調度器、集群方案;
截止目前為止,都沒有怎么去改動應用程序的架構,或者說通俗點,都不怎么需要大面積的修改代碼。
如果上面那些手段都用光了,還是支撐不住怎么辦?不停的加機器也不是辦法啊?
應用垂直拆分
隨著業務越來越復雜,網站的功能越來越多,雖然部署層面是采用的集群,但是應用程序架構層面還是“集中式”的,這樣會導致很多耦合,不便于開發、維護,而且容易“一榮俱損”。所以,通常會把網站拆分出不同的子站點來單獨宿主。
通過分而治之的手段將整個網站業務分成不同的產品線,如首頁、商鋪、訂單、賣家、買家等 拆分成不同的產品線,分歸不同的業務團隊負責。各個應用之間可以通過建立一個超鏈接建立關系,也可以通過消息隊列進行數據分發。
優點:降低耦合、分壓;
缺點:應用架構復雜;
技術點:業務抽取拆分;
業務垂直分庫
應用都拆了,由于單個數據庫的連接,QPS,TPS,I/O處理能力都非常有限,DB層面也可以去做垂直分庫操作。
優點:降低DB耦合、分壓DB;
缺點:數據訪問模塊復雜;
技術點:業務抽取拆分;
分布式服務化
拆分應用和DB之后,其實還是會有很多問題。不同的站點,里面可能會有相同邏輯和功能的代碼。當然,對于一些基礎的功能我們可以封裝DLL或者Jar包去到處提供引用,但是這種強依賴也很容易造成一些問題(版本問題、依賴關系等處理起來非常麻煩)。
既然每一個應用系統都需要執行許多相通的業務操作,比如用戶管理、商品管理等,那么可以將這些共用的業務提取出來,獨立部署。這樣,傳說中的SOA的價值就得到體現了。
優點:服務統一管理,提供重用度;
缺點:應用架構更復雜;
技術點:業務抽取拆分、服務化技術方案;
消息隊列
應用、服務之間還是會出現一些依賴問題,這時候,高吞吐量的解耦利器出現了。
優點:提高吞吐量、應用、服務之間解耦;
缺點:存在消息消費延遲問題;
技術點:消息隊列技術方案;
分庫分表
最后,再介紹一個大型互聯網公司都用的絕技--分庫分表。個人經驗,不是業務發展和各方面非常迫切,不要輕易走這一步。
因為分庫分表誰都會干,關鍵是拆完之后怎么辦。目前,市面上還沒有完全開源免費的方案,能讓你一勞永逸地解決數據庫拆分問題。
分庫分表:
- 橫向拆分;
- 縱向拆分;
- 分布式數據庫訪問層;
- 數據庫中間件(代理);
網站架構總結
上面講述了在網站業務發展的不同階段,會面臨不同的問題,針對不同的問題,會選擇不同的架構。大型網站架構就是在不同階段時解決不同問題的過程中慢慢演進來的。
最后幾句話,送給有緣的你:
- 一切以解決業務目標為首要任務;
- 沒有以業務為目標的任何架構、技術,都是毫無意義的耍流氓;
- 再牛逼的架構、再牛逼的技術,不能夠解決業務的問題,你也只能算是會架構、會技術的工匠,而不能算是真正意義上的架構師;
- 業務成就了技術,平臺成就了人,事業成就了人,而不是相反;
本文思維導圖,如下: