GEMMA(Genome-wide Efficient Mixed Model Association algorithm)是一款基于混合線性模型的GWAS分析軟件(文獻信息)。GEMMA相比較于其他基于混合線性模型的軟件,它有如下優勢:
- 快速:遠遠快于其他精確算法(EMMA和FaST-LMM)。
- 準確:EMMAX和GAPIT都采用固定零模型中的方差組分不變的策略來提高運算速度,這實際上就是一種近似算法,不如GEMMA準確。
- 方便:可直接使用plink二進制格式數據,無需進行復雜的數據格式轉換。
- 功能全面:可進行單標記GWAS、多標記GWAS和多性狀GWAS分析。
1. 軟件下載及安裝
1.1 下載地址: https://github.com/genetics-statistics/GEMMA/releases
選擇最新的穩定版0.98.1,下載下圖第一個文件:gemma-0.98.1-linux-static
。該文件是匯編好的,下載后解壓就可以使用
捕獲.PNG
1.2 安裝代碼如下:
gunzip gemma-0.98.1-linux-static.gz #解壓
chmod +x gemma-0.98.1-linux-static #添加執行權限
./gemma-0.98.1-linux-static #運行測試
捕獲1.PNG
2. plink 二進制文件格式介紹
2.1 plink二進制文件分為三部分:
- plink.bed 包含基因分型的二進制文件
- plink.fam 包含家庭號、個體號、母親號、母親號、性別、表型。即plink.ped文件前6列
- plink.bim 標記信息文件,類似于plink.map文件。
2.2 數據準備
我們使用GEMMA軟件提供的測試數據進行練習。具體數據可以在GEMMA下載頁面下載Source code(tar gz)
文件并解壓獲得。
測試數據.PNG
2.3 運行測試數據
運行時需要先生成kinship矩陣,在使用混合線性模型進行分析。代碼如下:
#計算kinship矩陣
./gemma-0.98.1-linux-static -bfile 2000 -gk 2 -o kin
#-bfile plink二進制文件前綴; -gk 2 生成kinship矩陣時進行scale; -o 輸出文件前綴
#將kinship矩陣移動至當前目錄
mv ./output/kin.sXX.txt .
#進行GWAS分析
./gemma-0.98.1-linux-static -bfile 2000 -k kin.sXX.txt -lmm 1 -o GE_GWAS
#-k 指定kinship矩陣; -lmm 1 使用wald檢驗計算顯著性。
2.4 輸出結果解讀
輸出結果見文件 ./output/GE_GWAS.association.txt
.
GWAS結果.PNG
該文件包含12列結果。具體含義如下:
-
chr
SNP所在染色體號 -
rs
SNP名稱 -
ps
SNP物理位置 -
n_miss
SNP缺失個體數 -
allele1
次等位基因 -
allele0
主等位基因 -
af
SNP頻率 -
beta
SNP效應值 -
se
beta估計標準誤 -
l_remle
計算該SNP效應時對應的lamda的remle估計值。 -
p_wald
wald檢驗P值
其中,我們最關心的三個結果是chr
,ps
,p_wald
,我們可以借助這三個結果畫曼哈頓圖和QQ圖。l_remle
比較難理解,需要懂模型才知道它的含義,但對分析來說,不是很重要。
有這個問題的同學可以留言。
GEMMA軟件源碼和說明文檔托管與github中:https://github.com/genetics-statistics/GEMMA