今天通過幾行代碼來準備Wego input的文件:
-
Wego官網要求的輸入文件格式(https://wego.genomics.cn/)
1639148090(1).jpg -
現有GO分析結果
1639148267(1).jpg 要把gene編號和對應的GO編號提取出來,用sed和awk命令實現。
第一步:先把##和%都替換成 \t
sed -e 's/%/\t/g' -e 's/##/\t/g' data.txt
第二步:用awk把帶有GO的列輸出
awk '{print $1}{ for(i=1;i<=NF;i++)if($i~/GO/) print $(i)}' go.txt >1.txt
第三步:再把\nGO替換成GO
在vim編輯器里%s/\nGO/GO/g(因為sed里不識別\n)