TASSEL利用固定效應線性模型來測試分離位點和表型之間的關聯。該分析可以選擇使用指示基礎總體成員程度的協變量來考慮總群結構。僅主效應模型是使用輸入數據中的所有變量自動構建的。為每個特征和標記組合構建并求解一個單獨的模型。任何因子、協變量、代表或位置都作為主效應包含在每個模型中。數據的使用方式必須在輸入數據文件中定義,或者在導入數據后但在數據與基因型連接之前使用性狀過濾器定義。
這里,SNP作為固定因子,可以考慮其它協變量(比如性別,PCA,群體結構等等)
image.png
GLM模型中,將每個SNP作為固定因子進行回歸分析,進行顯著性檢驗,P值就是GWAS分析的p-value,effect就是SNP的effect值。如果有其它因素需要考慮,就放到協變量里面,比如性別,PCA,Q矩陣等。
重點是對每個SNP做回歸分析,提取effect和p-value。
數據準備
表型數據:sample.table
Q矩陣:snp.3.Q
vcf文件:all_snp.vcf
參考腳本
#軟件安裝
conda install tassel
#gwas_glm
run_pipeline.pl -Xms512m -Xmx50g \ #設置內存大小
-fork1 -vcf ./all_snp.vcf \ #vcf文件
-fork2 -t sample.table \#表型數據
-fork3 -q snp.3.Q -excludeLastTrait \ #Q矩陣
-combine4 -input1 -input2 -input3 -intersect \ #數據取交集
-FixedEffectLMPlugin -endPlugin \ #進行glm分析
-export glm_output
輸出結果
glm_output1.txt
glm_output2.txt
glm_output1.txt
glm_output2.txt
結果繪圖
#提取繪圖文件
awk '{print $2"\t"$3"\t"$4"\t"$6}' glm_output1.txt > glm_output.manht_input
Rscript ./manhattan_cmplot.R glm_output.manht_input glm_output.manht_figure