淺談Opem_MP

OpenMP2.5

有底層API后,就已經(jīng)可以實(shí)現(xiàn)并行編程;然而,很多時(shí)候串行算法已經(jīng)成型,如果繼續(xù)使用原有的底層API,還將面臨轉(zhuǎn)換和調(diào)試的問題。OpenMP正是為了解決這樣的問題。

一、OpenMP的介紹

1.概覽

  • 提供線程級(jí)別的并行模型
  • 基于共享內(nèi)存的模型
  • 本身只是提供一種規(guī)范
    具體的實(shí)現(xiàn)由各個(gè)系統(tǒng)和編譯器負(fù)責(zé)實(shí)現(xiàn)

2.本質(zhì)

  • 一套多線程的API
  • 面向程序員的高層接口
  • 提供一系列的編譯和預(yù)處理的指導(dǎo)語句
  • 主要提供Fortran、C、C++的多線程支持
  • 以SMP的物理結(jié)構(gòu)完成多線程的實(shí)現(xiàn)

3.實(shí)現(xiàn)層次

  • 編譯時(shí)的指導(dǎo)語句
  • 庫(kù)函數(shù)的支持
  • 環(huán)境變量的支持
  • OpenMP的標(biāo)準(zhǔn)可以實(shí)現(xiàn)在任何編譯器上
    不同的編譯器支持程度不同

4.歷史

(略)

5.OpenMP的目標(biāo)

標(biāo)準(zhǔn)化

  • 在不同的語言和架構(gòu)上都可以以相同的方式編寫多核程序

簡(jiǎn)潔有效

  • 編譯器的指導(dǎo)語句盡可能地少

易用性

  • 允許程序逐步并行化
  • 使對(duì)串行程序的修改盡可能地少

可移植性

  • 多種語言
  • 不同平臺(tái)

6.OpenMP編程模型

共享內(nèi)存、基于線程的并行模型

顯式并行

Fork-Join模型

  • 程序啟動(dòng)后是單線程
  • 達(dá)到需要并行的部分(并行區(qū))時(shí),產(chǎn)生多個(gè)線程同時(shí)運(yùn)行
  • 所有線程同時(shí)執(zhí)行完后互相等待,一起結(jié)束

基于編譯器指導(dǎo)語句

支持嵌套并行

動(dòng)態(tài)線程的創(chuàng)建與銷毀

線程的數(shù)量可以由OpenMP自適應(yīng)

I/O

  • OpenMP并沒有指定I/O的接口,仍然按原有的方式進(jìn)行讀寫
  • 因此并行區(qū)中的讀寫會(huì)面臨沖突的問題,需要程序員自己解決

內(nèi)存模型

7.OpenMP的層次

  • SMP的硬件結(jié)構(gòu)
  • 系統(tǒng)的線程支持與OpenMP的運(yùn)行時(shí)庫(kù)
  • 編譯器指導(dǎo)語句、庫(kù)函數(shù)和環(huán)境變量
  • 應(yīng)用程序和最終用戶

8.示例代碼

    #include <omp.h>
    
    void main()
    {
        #pragma omp parallel            //編譯指導(dǎo)語句,將大括號(hào)括起的范圍內(nèi)做成一個(gè)并行區(qū)
        {
            int ID=omp_get_thread_num();
            printf("hello(%d)",ID);
            printf("world(%d)\n",ID);
        }
    }

編譯時(shí),需要增加參數(shù)-fopenmp(gcc)、-mp(pgi)、/Qopenmp(Intel)、/openmp(Visual Studio,或直接在項(xiàng)目屬性中添加OpenMP支持)

更一般的形式

    #include <omp.h>
    int main()
    {
        int v1,v2,v3;
        //Serial code
        #pragma omp parallel private(v1,v2) shared(v3)
        {
            //
            //Join
        }
        //Back to serial code
    }
  • 大括號(hào)必須緊跟編譯指導(dǎo)語句書寫
  • 語法格式是固定的

二、創(chuàng)建線程

1.Fork-Join結(jié)構(gòu)

  • 主線程按那些創(chuàng)建一組線程執(zhí)行并行任務(wù)
  • 并行區(qū)完全可以嵌套
    • 并行區(qū)中,主線程擔(dān)任一個(gè)線程的工作
    • 子并行區(qū)中,仍有相應(yīng)概念上的主線程

2.指定線程的個(gè)數(shù)

雖然線程個(gè)數(shù)可以由OpenMP自動(dòng)指定,但是也可以手動(dòng)設(shè)置

omp_set_num_threads(4);

這使得此函數(shù)之后的每個(gè)并行區(qū)都是4個(gè)線程同時(shí)運(yùn)行

也可以使用指導(dǎo)語句,這樣只對(duì)一個(gè)并行區(qū)生效

`#pragma omp parallel num_threads(4)`

三、同步方式

1.臨界區(qū)

多線程同時(shí)只能由一個(gè)進(jìn)入臨界區(qū)執(zhí)行

    float res;
    #pragma omp parallel
    {
        float B;
        int i,id,nthrds;
        id=omp_get_thread_num();        //當(dāng)前線程的ID
        nthrds=omp_get_num_threads();   //當(dāng)前的線程個(gè)數(shù)
        for(i=id,i<niters;i+=thrds)     //巧妙的for循環(huán),盡可能將循環(huán)任務(wù)平均地分配到各線程中去
        {
            B=big_job(i);
            #pragma omp critical
                consume(B,res);
        }
    }

2.原子操作

原子操作不會(huì)被多線程打斷
然而原子操作和臨界區(qū)的功能是一樣的,因?yàn)橛袕?fù)合語句的存在,原子操作的功能實(shí)際上還要弱一些
原子操作中不能使用復(fù)合語句,也不能進(jìn)行函數(shù)調(diào)用

    #pragma omp parallel
    {
        double tmp,B;
        B=DOIT();
        tmp=big_ugly(B);
        #pragma omp atomic
            X+=tmp;
    }
  • 提供原子操作的意義在于效率
    使用原子操作的效率,比使用臨界區(qū)要高很多,因?yàn)榭梢哉{(diào)用一些系統(tǒng)底層的特殊功能來實(shí)現(xiàn)原子操作

3.路障同步

4.同步次序

5.flush

6.鎖

四、并行循環(huán)

1.SPMD與worksharing

  • 工作共享創(chuàng)建了一個(gè)Single Program Multiple Data的程序結(jié)構(gòu)
  • 使得多個(gè)線程以看起來一樣的代碼完成不同的工作

2.分配循環(huán)用的worksharing

    #pragma omp for
        for(i=0;i<N;i++)
        {
            something();
        }
  • i將自動(dòng)地成為每個(gè)線程的私有變量
  • 默認(rèn)得到{0,1,2,3},{4,5,6,7},...這樣的循環(huán)劃分方法
    可以調(diào)整,但無法任意劃分

3.worksharing的結(jié)構(gòu)特點(diǎn)

  • worksharing結(jié)構(gòu)不會(huì)創(chuàng)建線程
    僅僅對(duì)執(zhí)行做分配
  • worksharing結(jié)構(gòu)在入口沒有路障同步,但出口處有
    而且都是隱式的

4.worksharing結(jié)構(gòu)的限制

  • 必須放在并行區(qū)內(nèi)
  • 待分配的任務(wù)無法執(zhí)行一部分,要么整個(gè)分配,要么不分配
  • 分配時(shí)有固定的次序,不支持自定義的次序
    也不會(huì)隨機(jī)分配

5.worksharing結(jié)構(gòu)的類型

  • section可以進(jìn)行手動(dòng)分配
  • single可以分配給單個(gè)線程

6.parallel與worksharing的組合

    double res[MAX];
    int i;
    #pragma omp parallel for
        for(i=0;i<MAX;i++)
            res[i]=huge();

7.規(guī)約

  • OpenMP提供的特殊、常見數(shù)據(jù)類型的支持

編譯指導(dǎo)語句的基本格式

`#pragma omp directive-name [clause,...] newline`

規(guī)約指導(dǎo)語句

`reduction(op:list)`

歸約操作的操作符和初始值

  • 由OpenMP規(guī)定
  • 無法自行定義

五、同步

1.Barrier

    #pragma omp barrier             //手動(dòng)的路障同步
    #pragma omp for nowait          //指明取消末尾的隱式路障同步
  • 直到所有線程執(zhí)行到此位置才繼續(xù)執(zhí)行
  • 離開臨界區(qū)時(shí)有隱式的路障同步

2.Master結(jié)構(gòu)

  • 標(biāo)記一個(gè)代碼塊只被一個(gè)線程執(zhí)行
  • 其它線程簡(jiǎn)單跳過
  • 默認(rèn)沒有路障同步,需要顯式指定

3.Single結(jié)構(gòu)

  • 此結(jié)構(gòu)中的內(nèi)容只有一個(gè)線程執(zhí)行
  • 可能由任何一個(gè)線程執(zhí)行,未必是master線程
  • 出口處有隱式的路障同步

4.ordered

  • 只加在for循環(huán)后
  • 表明for循環(huán)存在次序依賴
    標(biāo)記出的語句將按照for循環(huán)的串行迭代序被執(zhí)行
  • 對(duì)性能將產(chǎn)生很大的影響

5.鎖

簡(jiǎn)單鎖

可以認(rèn)為是簡(jiǎn)單的布爾變量
omp_*_lock

  • init
  • set
  • unset
  • test
  • destroy

嵌套鎖

與簡(jiǎn)單鎖不同,可以被同一個(gè)進(jìn)程反復(fù)地加鎖,解鎖時(shí)也要進(jìn)行相應(yīng)數(shù)量的解鎖
omp_*_nest_lock

  • init
  • set
  • unset
  • test
  • destroy

簡(jiǎn)單鎖的例子

    #include <omp.h>
    omp_lock_t lock;
    omp_init_lock(&lck);
    
    #pragma omp parallel private(tmp,id)
    {
        id=omp_get_thread_num();
        tmp=do_lots_of_work(id);
        omp_set_lock(&lock);
        omp_unset_lock(&lock);
    }
    omp_destroy_lock(&lock);

六、OpenMP的庫(kù)函數(shù)

1.修改、設(shè)置線程數(shù)量

  • omp_set_num_threads(int)
  • omp_get_num_threads()
    獲取此韓式調(diào)用時(shí)的線程數(shù)量
  • omp_get_thread_num()
    獲取當(dāng)前線程的線程號(hào)
  • omp_get_max_threads()
    獲取下一個(gè)開辟的并行區(qū)每個(gè)線程要開啟的線程數(shù)

2.是否在并行區(qū)域內(nèi)

  • omp_in_parallel()

3.是否允許系統(tǒng)動(dòng)態(tài)調(diào)整線程數(shù)量

  • omp_set_dynamic(int)
  • omp_get_dynamic()

4.系統(tǒng)處理器數(shù)量

  • omp_num_procs()

5.環(huán)境變量

環(huán)境變量的優(yōu)先級(jí)比庫(kù)函數(shù)要低一些

  • OMP_NUM_THREADS
  • OMP_SCHEDULE
    設(shè)置for循環(huán)是橫切或豎切

七、數(shù)據(jù)環(huán)境

1.默認(rèn)存儲(chǔ)屬性

  • 共享內(nèi)存的編程模型
  • 全局變量在線程間共享
  • 靜態(tài)變量是共享的
  • 堆內(nèi)存是共享的
    動(dòng)態(tài)分配的內(nèi)存

默認(rèn)情況下的私有變量

  • 并行區(qū)內(nèi)定義的變量

2.private子句

  • 為變量創(chuàng)建每個(gè)線程一份的副本
  • 未經(jīng)初始化的變量,在OpenMP中的初始值未被定義
    主流平臺(tái)上,private變量的修改對(duì)外圍沒有改變
  • 外部變量作為私有變量,對(duì)定義為私有變量的變量的修改,修改誰并沒有明確的定義
    實(shí)際平臺(tái)上的主流編譯器都修改全局變量

3.firstprivate與lastprivate子句

  • 和private子句幾乎相同
  • firstprivate
    私有變量的初值定義為全局變量原先的值
  • lastprivate
    出并行區(qū)時(shí),全局變量的值將被改變
    通常執(zhí)行的最后一條更新的值反映到全局變量中

4.default子句

default(PRIVATE|SHARED|NONE)
  • default(SHARED)是默認(rèn)存在的,因此不需寫出來
    #pragma omp task除外
  • 在C中,default(PRIVATE)不被支持
  • default(NONE)將不為變量設(shè)定默認(rèn)值
    此時(shí)必須為每個(gè)變量顯式指定屬性
    良好的自虐的編程實(shí)踐~
    通常只在需要編譯器提醒哪個(gè)變量沒有指定屬性時(shí)才使用

5.threadprivate子句

    int counter=0;
    #pragma omp threadprivate(counter)
  • 定義為threadprivate的變量是可以穿越多個(gè)并行區(qū)的
    變量的值以線程號(hào)一一對(duì)應(yīng)

copyin子句

    int a=100;
    #pragma omp threadprivate copyin(a)
  • 可以將全局變量的值拷貝進(jìn)對(duì)應(yīng)的私有變量

copyprivate子句

  • 只能在single中使用
  • 在路障同步點(diǎn)處由執(zhí)行single的線程拷貝到所有其它線程

指針的傳遞

  • 在線程之間,指針不要隨便亂傳
        #pragma omp parallel private(x) shared(p0,p1)
        x=...;
        p0=&x;
在另一個(gè)線程中使用p0指針會(huì)造成不可預(yù)料的后果

八、Schedule子句

1.section子句

    #pragma omp parallel
    {
        #pragma omp sections
        {
            #pragma omp section
            calculation1();
            #pragma omp section
            calculation2();
            #pragma omp section
            calculation3();
        }
    }
  • 這些任務(wù)由系統(tǒng)自由分配給不同線程運(yùn)行
  • 任務(wù)數(shù)與線程數(shù)相等時(shí),分配顯然
  • 任務(wù)數(shù)多于線程數(shù)時(shí)
    先用任務(wù)把線程占滿,哪個(gè)線程執(zhí)行完在分配剩下的任務(wù)
  • 任務(wù)數(shù)少于線程數(shù)時(shí)
    其它線程等待

2.schedule子句

`schedule(mode[,chunk])`

實(shí)際上大多數(shù)編譯器除了static,另外三種都沒實(shí)現(xiàn)

靜態(tài)調(diào)度

  • 所有分配方式在編碼時(shí)寫死
  • 默認(rèn)的分配方式
  • chunk默認(rèn)為最大值(迭代數(shù)/線程數(shù))
    chunk是循環(huán)任務(wù)分塊的大小
    如果需要循環(huán)縱切,chunk設(shè)置為1即可
  • 靜態(tài)調(diào)度的分配方式是非常明確的,第一個(gè)chunk給線程0,以此類推

動(dòng)態(tài)調(diào)度

  • 每個(gè)chunk可以動(dòng)態(tài)分配給某個(gè)線程了

guided調(diào)度

  • chunk定義的是塊的最小值
  • 實(shí)際上可以更大

runtime調(diào)度

  • 全部參數(shù)交由編譯器決定

九、內(nèi)存模型

1.弱一致性

  • 在代碼中,讀寫順序在不改變語義的情況下是可以改變的
  • 以S表示數(shù)據(jù)同步操作
    OpenMP中保證,S->W、S->R、R->S、W->S、S->S
    在OpenMP中就是flush操作

2.flush

    a=...;
    <other computaion>
    #pragma omp flush(a)
  • 變量值在內(nèi)存中的改變最早發(fā)生在寫操作,最晚在數(shù)據(jù)同步操作時(shí)進(jìn)行

隱式數(shù)據(jù)同步

其它所有同步都會(huì)自動(dòng)帶上數(shù)據(jù)同步

十、OpenMP 3.0與任務(wù)

1.任務(wù)

  • 其它結(jié)構(gòu)的工作量都是靜態(tài)的,但task的任務(wù)是可以動(dòng)態(tài)分的

2.例子

    for(int i=0;i<N;i+=a[i])
        task(a[i]);
  • 此循環(huán)不能使用#pragma omp for
  • 想要并行就必須使用task

3.task的結(jié)構(gòu)

`#pragma omp task [clause[[,],clause]...]`
  • 子句可以加入ifuntitled與所有數(shù)據(jù)環(huán)境

并行的鏈表舉例

    #pragma omp parallel
    {
        #pragma omp single private(p)   //由一個(gè)線程進(jìn)行預(yù)處理,其它線程什么都不做
        {
            p=listhead;
            while(p)
            {
                #pragma omp task
                process(p);             //將鏈表內(nèi)多個(gè)結(jié)點(diǎn)的處理并行進(jìn)行,
                                        //占用并行區(qū)內(nèi)原本閑置的線程
                p=next(p);
            }
        }
    }

4.untied子句

  • 創(chuàng)建的任務(wù),默認(rèn)將會(huì)與某個(gè)線程綁定,只能由某個(gè)線程來完成
  • untied可以用來解除這樣的綁定

舉例

    #pragma omp single
    {
        #pragma omp task untied
        for(i=0;i<ONEZILLION;i++)
            #pragma omp task
            process(item[i]);
    }
  • 如果不作為united的任務(wù),源源不斷的新任務(wù)將撐爆內(nèi)存
  • untied允許任務(wù)的創(chuàng)建在其它線程間遷移

5.if子句

  • 如果表達(dá)式為false,整個(gè)編譯指導(dǎo)語句無效
  • 默認(rèn)為if(true)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容