深入Golang調度器之GMP模型

前言

隨著服務器硬件迭代升級,配置也越來越高。為充分利用服務器資源,并發編程也變的越來越重要。在開始之前,需要了解一下并發(concurrency)和并行(parallesim)的區別。

并發: 邏輯上具有處理多個同時性任務的能力。

并行: 物理上同一時刻執行多個并發任務。

通常所說的并發編程,也就是說它允許多個任務同時執行,但實際上并不一定在同一時刻被執行。在單核處理器上,通過多線程共享CPU時間片串行執行(并發非并行)。而并行則依賴于多核處理器等物理資源,讓多個任務可以實現并行執行(并發且并行)。

多線程或多進程是并行的基本條件,但單線程也可以用協程(coroutine)做到并發。簡單將Goroutine歸納為協程并不合適,因為它運行時會創建多個線程來執行并發任務,且任務單元可被調度到其它線程執行。這更像是多線程和協程的結合體,能最大限度提升執行效率,發揮多核處理器能力。

Go編寫一個并發編程程序很簡單,只需要在函數之前使用一個Go關鍵字就可以實現并發編程。

func main() {    go func(){
        fmt.Println("Hello,World!")
    }()
}

Go調度器組成

Go語言雖然使用一個Go關鍵字即可實現并發編程,但Goroutine被調度到后端之后,具體的實現比較復雜。先看看調度器有哪幾部分組成。

1、G

G是Goroutine的縮寫,相當于操作系統中的進程控制塊,在這里就是Goroutine的控制結構,是對Goroutine的抽象。其中包括執行的函數指令及參數;G保存的任務對象;線程上下文切換,現場保護和現場恢復需要的寄存器(SP、IP)等信息。

Go不同版本Goroutine默認棧大小不同。

// Go1.11版本默認stack大小為2KB

_StackMin = 2048
 
// 創建一個g對象,然后放到g隊列
// 等待被執行
func newproc1(fn *funcval, argp *uint8, narg int32, callergp *g, callerpc uintptr) {
    _g_ := getg()

    _g_.m.locks++
    siz := narg
    siz = (siz + 7) &^ 7

    _p_ := _g_.m.p.ptr()
    newg := gfget(_p_)    
    if newg == nil {        
       // 初始化g stack大小
        newg = malg(_StackMin)
        casgstatus(newg, _Gidle, _Gdead)
        allgadd(newg)
    }    
    // 以下省略}

2、M

M是一個線程或稱為Machine,所有M是有線程棧的。如果不對該線程棧提供內存的話,系統會給該線程棧提供內存(不同操作系統提供的線程棧大小不同)。當指定了線程棧,則M.stack→G.stack,M的PC寄存器指向G提供的函數,然后去執行。

type m struct {    
    /*
        1.  所有調用棧的Goroutine,這是一個比較特殊的Goroutine。
        2.  普通的Goroutine棧是在Heap分配的可增長的stack,而g0的stack是M對應的線程棧。
        3.  所有調度相關代碼,會先切換到該Goroutine的棧再執行。
    */
    g0       *g
    curg     *g         // M當前綁定的結構體G

    // SP、PC寄存器用于現場保護和現場恢復
    vdsoSP uintptr
    vdsoPC uintptr

    // 省略…}

3、P

P(Processor)是一個抽象的概念,并不是真正的物理CPU。所以當P有任務時需要創建或者喚醒一個系統線程來執行它隊列里的任務。所以P/M需要進行綁定,構成一個執行單元。

P決定了同時可以并發任務的數量,可通過GOMAXPROCS限制同時執行用戶級任務的操作系統線程。可以通過runtime.GOMAXPROCS進行指定。在Go1.5之后GOMAXPROCS被默認設置可用的核數,而之前則默認為1。

// 自定義設置GOMAXPROCS數量
func GOMAXPROCS(n int) int {    
    /*
        1.  GOMAXPROCS設置可執行的CPU的最大數量,同時返回之前的設置。
        2.  如果n < 1,則不更改當前的值。
    */
    ret := int(gomaxprocs)

    stopTheWorld("GOMAXPROCS")    
    // startTheWorld啟動時,使用newprocs。
    newprocs = int32(n)
    startTheWorld()    
    return ret
}
// 默認P被綁定到所有CPU核上
// P == cpu.cores

func getproccount() int32 {    
    const maxCPUs = 64 * 1024
    var buf [maxCPUs / 8]byte


    // 獲取CPU Core
    r := sched_getaffinity(0, unsafe.Sizeof(buf), &buf[0])

    n := int32(0)    
    for _, v := range buf[:r] {        
       for v != 0 {
            n += int32(v & 1)
            v >>= 1
        }
    }    
    if n == 0 {
       n = 1
    }    
    return n
}
// 一個進程默認被綁定在所有CPU核上,返回所有CPU core。
// 獲取進程的CPU親和性掩碼系統調用
// rax 204                          ; 系統調用碼
// system_call sys_sched_getaffinity; 系統調用名稱
// rid  pid                         ; 進程號
// rsi unsigned int len             
// rdx unsigned long *user_mask_ptr
sys_linux_amd64.s:
TEXT runtime·sched_getaffinity(SB),NOSPLIT,$0
    MOVQ    pid+0(FP), DI
    MOVQ    len+8(FP), SI
    MOVQ    buf+16(FP), DX
    MOVL    $SYS_sched_getaffinity, AX
    SYSCALL
    MOVL    AX, ret+24(FP)
    RET

Go調度器調度過程

首先創建一個G對象,G對象保存到P本地隊列或者是全局隊列。P此時去喚醒一個M。P繼續執行它的執行序。M尋找是否有空閑的P,如果有則將該G對象移動到它本身。接下來M執行一個調度循環(調用G對象->執行->清理線程→繼續找新的Goroutine執行)。

M執行過程中,隨時會發生上下文切換。當發生上線文切換時,需要對執行現場進行保護,以便下次被調度執行時進行現場恢復。Go調度器M的棧保存在G對象上,只需要將M所需要的寄存器(SP、PC等)保存到G對象上就可以實現現場保護。當這些寄存器數據被保護起來,就隨時可以做上下文切換了,在中斷之前把現場保存起來。如果此時G任務還沒有執行完,M可以將任務重新丟到P的任務隊列,等待下一次被調度執行。當再次被調度執行時,M通過訪問G的vdsoSP、vdsoPC寄存器進行現場恢復(從上次中斷位置繼續執行)。

1、P 隊列

通過上圖可以發現,P有兩種隊列:本地隊列和全局隊列。

  • 本地隊列: 當前P的隊列,本地隊列是Lock-Free,沒有數據競爭問題,無需加鎖處理,可以提升處理速度。

  • 全局隊列:全局隊列為了保證多個P之間任務的平衡。所有M共享P全局隊列,為保證數據競爭問題,需要加鎖處理。相比本地隊列處理速度要低于全局隊列。

2、上線文切換

簡單理解為當時的環境即可,環境可以包括當時程序狀態以及變量狀態。例如線程切換的時候在內核會發生上下文切換,這里的上下文就包括了當時寄存器的值,把寄存器的值保存起來,等下次該線程又得到cpu時間的時候再恢復寄存器的值,這樣線程才能正確運行。

對于代碼中某個值說,上下文是指這個值所在的局部(全局)作用域對象。相對于進程而言,上下文就是進程執行時的環境,具體來說就是各個變量和數據,包括所有的寄存器變量、進程打開的文件、內存(堆棧)信息等。

3、線程清理

Goroutine被調度執行必須保證P/M進行綁定,所以線程清理只需要將P釋放就可以實現線程的清理。什么時候P會釋放,保證其它G可以被執行。P被釋放主要有兩種情況。

  • 主動釋放:最典型的例子是,當執行G任務時有系統調用,當發生系統調用時M會處于Block狀態。調度器會設置一個超時時間,當超時時會將P釋放。

  • 被動釋放:如果發生系統調用,有一個專門監控程序,進行掃描當前處于阻塞的P/M組合。當超過系統程序設置的超時時間,會自動將P資源搶走。去執行隊列的其它G任務。

終于要來說說Golang中最吸引人的goroutine了,這也是Golang能夠橫空出世的主要原因。不同于Python基于進程的并發模型,以及C++、Java等基于線程的并發模型。Golang采用輕量級的goroutine來實現并發,可以大大減少CPU的切換。現在已經有太多的文章來介紹goroutine的用法,在這里,我們從源碼的角度來看看其內部實現。

重申一下重點:goroutine中的三個實體

goroutine中最主要的是三個實體為GMP,其中:

G: 代表一個goroutine對象,每次go調用的時候,都會創建一個G對象,它包括棧、指令指針以及對于調用goroutines很重要的其它信息,比如阻塞它的任何channel,其主要數據結構:

type g struct {
  stack       stack   // 描述了真實的棧內存,包括上下界

  m              *m     // 當前的m
  sched          gobuf   // goroutine切換時,用于保存g的上下文      
  param          unsafe.Pointer // 用于傳遞參數,睡眠時其他goroutine可以設置param,喚醒時該goroutine可以獲取
  atomicstatus   uint32
  stackLock      uint32 
  goid           int64  // goroutine的ID
  waitsince      int64 // g被阻塞的大體時間
  lockedm        *m     // G被鎖定只在這個m上運行
}

其中最主要的當然是sched了,保存了goroutine的上下文。goroutine切換的時候不同于線程有OS來負責這部分數據,而是由一個gobuf對象來保存,這樣能夠更加輕量級,再來看看gobuf的結構:

type gobuf struct {
    sp   uintptr
    pc   uintptr
    g    guintptr
    ctxt unsafe.Pointer
    ret  sys.Uintreg
    lr   uintptr
    bp   uintptr // for GOEXPERIMENT=framepointer
}

其實就是保存了當前的棧指針,計數器,當然還有g自身,這里記錄自身g的指針是為了能快速的訪問到goroutine中的信息。

M:代表一個線程,每次創建一個M的時候,都會有一個底層線程創建;所有的G任務,最終還是在M上執行,其主要數據結構:

type m struct {
    g0      *g     // 帶有調度棧的goroutine

    gsignal       *g         // 處理信號的goroutine
    tls           [6]uintptr // thread-local storage
    mstartfn      func()
    curg          *g       // 當前運行的goroutine
    caughtsig     guintptr 
    p             puintptr // 關聯p和執行的go代碼
    nextp         puintptr
    id            int32
    mallocing     int32 // 狀態

    spinning      bool // m是否out of work
    blocked       bool // m是否被阻塞
    inwb          bool // m是否在執行寫屏蔽

    printlock     int8
    incgo         bool // m在執行cgo嗎
    fastrand      uint32
    ncgocall      uint64      // cgo調用的總數
    ncgo          int32       // 當前cgo調用的數目
    park          note
    alllink       *m // 用于鏈接allm
    schedlink     muintptr
    mcache        *mcache // 當前m的內存緩存
    lockedg       *g // 鎖定g在當前m上執行,而不會切換到其他m
    createstack   [32]uintptr // thread創建的棧
}

結構體M中有兩個G是需要關注一下的,一個是curg,代表結構體M當前綁定的結構體G。另一個是g0,是帶有調度棧的goroutine,這是一個比較特殊的goroutine。普通的goroutine的棧是在堆上分配的可增長的棧,而g0的棧是M對應的線程的棧。所有調度相關的代碼,會先切換到該goroutine的棧中再執行。也就是說線程的棧也是用的g實現,而不是使用的OS的。

P:代表一個處理器,每一個運行的M都必須綁定一個P,就像線程必須在么一個CPU核上執行一樣,由P來調度G在M上的運行,P的個數就是GOMAXPROCS(最大256),啟動時固定的,一般不修改;M的個數和P的個數不一定一樣多(會有休眠的M或者不需要太多的M)(最大10000);每一個P保存著本地G任務隊列,也有一個全局G任務隊列。P的數據結構:

type p struct {
    lock mutex

    id          int32
    status      uint32 // 狀態,可以為pidle/prunning/...
    link        puintptr
    schedtick   uint32     // 每調度一次加1
    syscalltick uint32     // 每一次系統調用加1
    sysmontick  sysmontick 
    m           muintptr   // 回鏈到關聯的m
    mcache      *mcache
    racectx     uintptr

    goidcache    uint64 // goroutine的ID的緩存
    goidcacheend uint64

    // 可運行的goroutine的隊列
    runqhead uint32
    runqtail uint32
    runq     [256]guintptr

    runnext guintptr // 下一個運行的g

    sudogcache []*sudog
    sudogbuf   [128]*sudog

    palloc persistentAlloc // per-P to avoid mutex

    pad [sys.CacheLineSize]byte

其中P的狀態有Pidle, Prunning, Psyscall, Pgcstop, Pdead;在其內部隊列runqhead里面有可運行的goroutine,P優先從內部獲取執行的g,這樣能夠提高效率。

除此之外,還有一個數據結構需要在這里提及,就是schedt,可以看做是一個全局的調度者:

type schedt struct {
   goidgen  uint64
    lastpoll uint64

    lock mutex

    midle        muintptr // idle狀態的m
    nmidle       int32    // idle狀態的m個數
    nmidlelocked int32    // lockde狀態的m個數
    mcount       int32    // 創建的m的總數
    maxmcount    int32    // m允許的最大個數

    ngsys uint32 // 系統中goroutine的數目,會自動更新

    pidle      puintptr // idle的p
    npidle     uint32
    nmspinning uint32 

    // 全局的可運行的g隊列
    runqhead guintptr
    runqtail guintptr
    runqsize int32

    // dead的G的全局緩存
    gflock       mutex
    gfreeStack   *g
    gfreeNoStack *g
    ngfree       int32

    // sudog的緩存中心
    sudoglock  mutex
    sudogcache *sudog
}

大多數需要的信息都已放在了結構體M、G和P中,schedt結構體只是一個殼。可以看到,其中有M的idle隊列,P的idle隊列,以及一個全局的就緒的G隊列。schedt結構體中的Lock是非常必須的,如果M或P等做一些非局部的操作,它們一般需要先鎖住調度器。

goroutine的運行過程

所有的goroutine都是由函數newproc來創建的,但是由于該函數不能調用分段棧,最后真正調用的是newproc1。在newproc1中主要進行如下動作:

func newproc1(fn *funcval, argp *uint8, narg int32, nret int32, callerpc uintptr) *g {
    newg = malg(_StackMin)
    casgstatus(newg, _Gidle, _Gdead)
    allgadd(newg) 
    newg.sched.sp = sp
    newg.stktopsp = sp
    newg.sched.pc = funcPC(goexit) + sys.PCQuantum 
    newg.sched.g = guintptr(unsafe.Pointer(newg))
    gostartcallfn(&newg.sched, fn)
    newg.gopc = callerpc
    newg.startpc = fn.fn
    ......
}

分配一個g的結構體
初始化這個結構體的一些域
將g掛在就緒隊列
綁定g到一個m上

這個綁定只要m沒有突破上限GOMAXPROCS,就拿一個m綁定一個g。如果m的waiting隊列中有就從隊列中拿,否則就要新建一個m,調用newm

func newm(fn func(), _p_ *p) {
    mp := allocm(_p_, fn)
    mp.nextp.set(_p_)
    mp.sigmask = initSigmask
    execLock.rlock()
    newosproc(mp, unsafe.Pointer(mp.g0.stack.hi))
    execLock.runlock()
}

該函數其實就是創建一個m,跟newproc有些相似,之前也說了m在底層就是一個線程的創建,也即是newosproc函數,在往下挖可以看到會根據不同的OS來執行不同的bsdthread_create函數,而底層就是調用的runtime.clone

clone(cloneFlags,stk,unsafe.Pointer(mp),unsafe.Pointer(mp.g0),unsafe.Pointer(funcPC(mstart)))

m創建好之后,線程的入口是mstart,最后調用的即是mstart1

func mstart1() {
    _g_ := getg()
    gosave(&_g_.m.g0.sched)
    _g_.m.g0.sched.pc = ^uintptr(0)
    asminit()
    minit()

    if _g_.m == &m0 {
        initsig(false)
    }

    if fn := _g_.m.mstartfn; fn != nil {
        fn()
    }
    schedule()
}

里面最重要的就是schedule了,在schedule中的動作大體就是找到一個等待運行的g,然后然后搬到m上,設置其狀態為Grunning,直接切換到g的上下文環境,恢復g的執行。

func schedule() {
    _g_ := getg()

    if _g_.m.lockedg != nil {
        stoplockedm()
        execute(_g_.m.lockedg, false) // Never returns.
    }
}

schedule的執行可以大體總結為:

schedule函數獲取g => [必要時休眠] => [喚醒后繼續獲取] => execute函數執行g => 執行后返回到goexit => 重新執行schedule函數

簡單來說g所經歷的幾個主要的過程就是:Gwaiting->Grunnable->Grunning。經歷了創建,到掛在就緒隊列,到從就緒隊列拿出并運行整個過程。

casgstatus(gp, _Gwaiting, _Grunnable)
casgstatus(gp, _Grunnable, _Grunning)

引入了struct M這層抽象。m就是這里的worker,但不是線程。處理系統調用中的m不會占用mcpu數量,只有干事的m才會對應到線程.當mcpu數量少于GOMAXPROCS時可以一直開新的線程干活.而goroutine的執行則是在m和g都滿足之后通過schedule切換上下文進入的.

搶占式調度

當有很多goroutine需要執行的時候,是怎么調度的了,上面說的P還沒有出場呢,在runtime.main中會創建一個額外m運行sysmon函數,搶占就是在sysmon中實現的。

sysmon會進入一個無限循環, 第一輪回休眠20us, 之后每次休眠時間倍增, 最終每一輪都會休眠10ms. sysmon中有netpool(獲取fd事件), retake(搶占), forcegc(按時間強制執行gc), scavenge heap(釋放自由列表中多余的項減少內存占用)等處理.

func sysmon() {
    lasttrace := int64(0)
    idle := 0 // how many cycles in succession we had not wokeup somebody
    delay := uint32(0)
    for {
        if idle == 0 { // start with 20us sleep...
            delay = 20
        } else if idle > 50 { // start doubling the sleep after 1ms...
            delay *= 2
        }
        if delay > 10*1000 { // up to 10ms
            delay = 10 * 1000
        }
        usleep(delay)

        ......
    }       
}

里面的函數retake負責搶占:

func retake(now int64) uint32 {
    n := 0
    for i := int32(0); i < gomaxprocs; i++ {
        _p_ := allp[i]
        if _p_ == nil {
            continue
        }
        pd := &_p_.sysmontick
        s := _p_.status
        if s == _Psyscall {
            // 如果p的syscall時間超過一個sysmon tick則搶占該p
            t := int64(_p_.syscalltick)
            if int64(pd.syscalltick) != t {
                pd.syscalltick = uint32(t)
                pd.syscallwhen = now
                continue
            }
            if runqempty(_p_) && atomic.Load(&sched.nmspinning)+atomic.Load(&sched.npidle) > 0 && pd.syscallwhen+10*1000*1000 > now {
                continue
            }
            incidlelocked(-1)
            if atomic.Cas(&_p_.status, s, _Pidle) {
                if trace.enabled {
                    traceGoSysBlock(_p_)
                    traceProcStop(_p_)
                }
                n++
                _p_.syscalltick++
                handoffp(_p_)
            }
            incidlelocked(1)
        } else if s == _Prunning {
            // 如果G運行時間過長,則搶占該G
            t := int64(_p_.schedtick)
            if int64(pd.schedtick) != t {
                pd.schedtick = uint32(t)
                pd.schedwhen = now
                continue
            }
            if pd.schedwhen+forcePreemptNS > now {
                continue
            }
            preemptone(_p_)
        }
    }
    return uint32(n)
}

枚舉所有的P 如果P在系統調用中(_Psyscall), 且經過了一次sysmon循環(20us~10ms), 則搶占這個P, 調用handoffp解除M和P之間的關聯, 如果P在運行中(_Prunning), 且經過了一次sysmon循環并且G運行時間超過forcePreemptNS(10ms), 則搶占這個P

并設置g.preempt = true,g.stackguard0 = stackPreempt。

為什么設置了stackguard就可以實現搶占?

因為這個值用于檢查當前棧空間是否足夠, go函數的開頭會比對這個值判斷是否需要擴張棧。

newstack函數判斷g.stackguard0等于stackPreempt, 就知道這是搶占觸發的, 這時會再檢查一遍是否要搶占。

搶占機制保證了不會有一個G長時間的運行導致其他G無法運行的情況發生。

總結

相比大多數并行設計模型,Go比較優勢的設計就是P上下文這個概念的出現,如果只有G和M的對應關系,那么當G阻塞在IO上的時候,M是沒有實際在工作的,這樣造成了資源的浪費,沒有了P,那么所有G的列表都放在全局,這樣導致臨界區太大,對多核調度造成極大影響。

而goroutine在使用上面的特點,感覺既可以用來做密集的多核計算,又可以做高并發的IO應用,做IO應用的時候,寫起來感覺和對程序員最友好的同步阻塞一樣,而實際上由于runtime的調度,底層是以同步非阻塞的方式在運行(即IO多路復用)。

所以說保護現場的搶占式調度和G被阻塞后傳遞給其他m調用的核心思想,使得goroutine的產生。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容