重測序分析(17)GWAS分析實操(3)gwas_tassel_glm

TASSEL利用固定效應線性模型來測試分離位點和表型之間的關聯。該分析可以選擇使用指示基礎總體成員程度的協變量來考慮總群結構。僅主效應模型是使用輸入數據中的所有變量自動構建的。為每個特征和標記組合構建并求解一個單獨的模型。任何因子、協變量、代表或位置都作為主效應包含在每個模型中。數據的使用方式必須在輸入數據文件中定義,或者在導入數據后但在數據與基因型連接之前使用性狀過濾器定義。

這里,SNP作為固定因子,可以考慮其它協變量(比如性別,PCA,群體結構等等)

image.png

GLM模型中,將每個SNP作為固定因子進行回歸分析,進行顯著性檢驗,P值就是GWAS分析的p-value,effect就是SNP的effect值。如果有其它因素需要考慮,就放到協變量里面,比如性別,PCA,Q矩陣等。

重點是對每個SNP做回歸分析,提取effect和p-value。

數據準備

表型數據:sample.table



Q矩陣:snp.3.Q



vcf文件:all_snp.vcf

參考腳本

#軟件安裝
conda install tassel

#gwas_glm
run_pipeline.pl -Xms512m -Xmx50g \ #設置內存大小
  -fork1 -vcf ./all_snp.vcf  \ #vcf文件
  -fork2  -t  sample.table \#表型數據
  -fork3 -q   snp.3.Q  -excludeLastTrait \ #Q矩陣
  -combine4 -input1 -input2 -input3 -intersect \ #數據取交集
  -FixedEffectLMPlugin -endPlugin \ #進行glm分析
  -export glm_output

輸出結果

glm_output1.txt
glm_output2.txt


glm_output1.txt

glm_output2.txt

結果繪圖

#提取繪圖文件
awk '{print $2"\t"$3"\t"$4"\t"$6}' glm_output1.txt > glm_output.manht_input
Rscript ./manhattan_cmplot.R  glm_output.manht_input glm_output.manht_figure

歡迎關注Bioinfor 生信云!

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容