譯自Understanding Linux CPU Load - when should you be worried?
你可能已經(jīng)很早就熟悉Linux負(fù)載均值這個(gè)概念了,通過uptime
或者top
命令就可以得到三個(gè)數(shù)字,具體如下所示:
load average: 0.09, 0.05, 0.01
絕大多數(shù)人對(duì)負(fù)載均值只是有個(gè)粗淺的認(rèn)識(shí):即這三個(gè)數(shù)字分別代表系統(tǒng)最后1分鐘、最后10分鐘以及最后15分鐘的平均負(fù)載值,并且這些數(shù)字越小越好,如果比較大則表示系統(tǒng)設(shè)備有可能負(fù)荷超載等問題。
但是你有沒有想過,這些數(shù)字有沒有邊界?代表“好”或者“壞”的邊界值又是多少?你什么時(shí)候應(yīng)該關(guān)注這些數(shù)值?你應(yīng)該什么時(shí)候去盡快處理使其降下來?
在討論這些問題之前,先了解一些負(fù)載均值相關(guān)的背景知識(shí)。我們用一臺(tái)配置了單核處理器的設(shè)備,舉個(gè)簡(jiǎn)單例子解釋說明下。
道路千萬條,安全第一條。行車不規(guī)范,親人兩行淚。
單核CPU就像一條車道的交通情況。假設(shè)你是一座大橋的操作員,有時(shí)橋上太忙了,有很多車等著過橋。你想讓人們知道橋上的交通狀況。那么一個(gè)合適的度量標(biāo)準(zhǔn),就是在特定時(shí)間有多少輛車在等待。如果沒有車在等,新來的司機(jī)知道他們可以馬上開過去。如果橋上堵車,那么司機(jī)就知道他們會(huì)遇到延誤。
因此,這些數(shù)值用于如下用途:
-
0.00表示橋上一輛車都沒有。也就是說,如果數(shù)值介于0.00~1.00之間,則表示沒有堵車,所有的車輛都可以流暢通過。
負(fù)載為0.00 -
0.50表示橋上的車輛只有一半。可以看到車輛間距較大,不會(huì)擁擠。
負(fù)載為0.50 -
1.00表示橋上的車輛達(dá)到最大值。一切剛剛好,但如果橋上再來一輛車,那么就出現(xiàn)堵車的情況了。
負(fù)載為1.00 -
大于1.00表示堵車了。負(fù)載數(shù)值和堵車嚴(yán)重程度有什么關(guān)系呢?舉例說明,2.00表示等待過橋的車輛和橋上滿負(fù)載的車輛一樣多,3.00表示等待的車輛是橋上滿負(fù)載的車輛的2倍,以此類推。
負(fù)載為1.70
這基本上就是CPU負(fù)載的解釋。“汽車”就是使用CPU時(shí)間片(即“過橋”)或排隊(duì)使用CPU(等待“過橋”)的進(jìn)程,Unix將其稱為運(yùn)行隊(duì)列長(zhǎng)度,即當(dāng)前運(yùn)行的進(jìn)程數(shù)加上等待(排隊(duì))運(yùn)行的進(jìn)程數(shù)之和。
就像作為一個(gè)大橋的管理者,你肯定不愿意車輛/進(jìn)程一直處于等待狀態(tài),所以應(yīng)該讓你的CPU負(fù)載低于1.00。如果偶爾超過1.00不用擔(dān)心,但如果一直大于1.00,那么就需要考慮哪里出了問題了。
所以說最理想的負(fù)載是1.00嗎?
其實(shí)并不是這樣的。當(dāng)負(fù)載達(dá)到1.00時(shí)表示已經(jīng)觸及天花板了,所以一般來說會(huì)有一條邊界線,即0.70。
經(jīng)驗(yàn)法則之“需要關(guān)注”——0.70:如果你的CPU負(fù)載均值一直處于>0.70的狀態(tài),那么在事情變得更糟之前,需要調(diào)查一下原因所在。
經(jīng)驗(yàn)法則之“立刻修復(fù)”——1.00:如果你的CPU負(fù)載均值一直處于>1.00的狀態(tài),那么趕緊查原因修復(fù)它吧!
經(jīng)驗(yàn)法則之“緊急狀況”——5.00:如果你的CPU負(fù)載均值超過了5.00,你恐怕是遇到大麻煩了!你的系統(tǒng)設(shè)備可能卡頓或者特別慢,隨時(shí)會(huì)出現(xiàn)意外情況。
多處理器下,負(fù)載為3.00,但運(yùn)行結(jié)果一切正常!
是4個(gè)處理器的系統(tǒng)嗎?如果是,那就沒事兒。
在多處理器系統(tǒng)上,負(fù)載與可用處理器內(nèi)核的數(shù)量有關(guān)。“100%利用率”在單核系統(tǒng)上負(fù)載為1.00,在雙核系統(tǒng)上為2.00,在四核系統(tǒng)上為4.00等等。
回到剛才大橋的例子上,1.00表示一條車道上的車輛。在單行道上的大橋上,1.00表示剛好滿載;在兩條車道的大橋上,1.00表示只有50%的負(fù)載——即一條車道滿載,而另一條車道是空的。
同樣地在CPU上:負(fù)載為1.00表示在單核系統(tǒng)上是100%利用率,負(fù)載為2.00表示在雙核系統(tǒng)上是100%利用率。
多核處理器VS多處理器
現(xiàn)在,我們討論下多核以及多處理器的話題。從性能的角度來看,一臺(tái)只有一個(gè)雙核處理器的機(jī)器基本上等同于一臺(tái)只有兩個(gè)單核處理器的機(jī)器。這里有許多關(guān)于緩存數(shù)量、處理器之間的進(jìn)程切換頻率等的細(xì)微之處。盡管有這些細(xì)微之處,但是為了評(píng)估CPU負(fù)載值,無論這些內(nèi)核分布在多少物理處理器上,內(nèi)核的總數(shù)量都很重要。
這就引出了兩條新的經(jīng)驗(yàn)法則:
內(nèi)核總數(shù)=最大負(fù)載:在一個(gè)多核系統(tǒng)里,負(fù)載不應(yīng)該超過可用的內(nèi)核數(shù)之和。
內(nèi)核就是內(nèi)核:內(nèi)核如何分布在CPU上并不重要,2個(gè)四核== 4個(gè)雙核== 8個(gè)單核,這些都是8個(gè)內(nèi)核。
回歸正傳
輸入uptime
命令,得到如下的負(fù)載均值:
~ $ uptime
23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36
這是一個(gè)雙核處理器,所以還有很大的余量空間,不需要為它擔(dān)心,除非負(fù)載長(zhǎng)期處于1.7或更大。
那么這三個(gè)數(shù)字怎么處理呢?0.65是最后1分鐘的平均值,0.42是最后5分鐘的平均值,0.36是最后15分鐘的平均值。這就引出了一個(gè)問題:
這三個(gè)數(shù)值,我應(yīng)該關(guān)注哪個(gè)?1分鐘,5分鐘,還是15分鐘?
關(guān)于這些數(shù)值的含義我們已經(jīng)討論過(1.00表示需要馬上修復(fù)等等),你最應(yīng)該關(guān)注的是5分鐘或15分鐘的平均值。坦率地說,如果你的機(jī)器在一分鐘內(nèi)的平均峰值超過1.0,仍然是可以正常工作的。當(dāng)15分鐘的平均值超過1.0時(shí),你需要迅速去調(diào)整直至正常范圍內(nèi)(當(dāng)然具體數(shù)值要看你的系統(tǒng)內(nèi)核數(shù)量)。
內(nèi)核的數(shù)量對(duì)于解釋平均負(fù)載非常重要,那么我如何得知系統(tǒng)有多少內(nèi)核?
通過cat /proc/cpuinfo
命令獲取每個(gè)處理器的詳細(xì)信息,grep 'model name' /proc/cpuinfo | wc -l
命令則獲取所有的內(nèi)核數(shù)量。