###序列操作
$ seqkit seq *.fa -r > out #取反向序列
$ seqkit seq *.fa -p > out #取互補序列
$ seqkit seq *.fa -r -p > out #取反向互補序列
$ seqkit seq *.fa --nda2rna > out #DNA序列轉換為RNA序列
$ seqkit seq *.fa rna2dna > out #RNA序列轉換為DNA序列
$ seqkit seq *.fa -l > out #將序列以小寫字母的形式輸出
$ seqkit seq *.fa -u > out #將序列以大寫字母的形式輸出
$ seqkit seq *.fa -w 10 > out #(指定序列的長度為10)指定每行序列的輸出長度(為0的話,代表為一整行,默認的輸出 長度是60個堿基)
$ seqkit seq *.fa -w 0 > out #將多行序列轉換為一行序列
$ seqkit seq *.fa -s -w 0 > out #只輸出序列
$ seqkit seq *.fa -s -w 40 > out #將只輸出的序列的,指定每行輸出的堿基數
$ seqkit seq *.fa -s -w 20 -o *.fa
############################################################################################################################
###Fasta/q之間以及與tab格式互換
$ seqkit fq2fa test.fq -o test.fa #將fataq文件轉化為fasta格式.
$ seqkit fx2tab test.fa > test_tab.fa #(沒有seq參數)將fasta格式轉化為tab格式
############################################################################################################################
###序列信息統計
$ seqkit fx2tab -l -g -n -i -H *fa #序列堿基含量
$ seqkit stat *.fa #序列長度的整體分布統計
############################################################################################################################
###根據ID或特定的motif篩選提取序列
$ seqkit grep -s -r -i -p ^atg cds.fa#選取有起始密碼子的序列
$ seqkit grep -f list test.fa > new.fa#根據ID提取序列
$ seqkit grep -s -d -i -p TTSAA#簡并堿基使用。S 代表C or G.
$ seqkit grep -s -R 1:30 -i -r -p GCTGG##匹配限定到某區域
############################################################################################################################
###多個序列文件比較尋找相同的序列或者ID相同的序列
$ seqkit common test1.fa test2.fa -o common.fasta #By ID (default,>后面,空格之前的名字)輸出ID名字相同的。
$ seqkit common test1.fa test2.fa -n -o common.fasta #By full name(整個序列的名字,包含description部分)。輸出序列名字相同的。
$ seqkit common test1.fa test2.fa -s -i -o common.fasta #輸出要比較的文件中序列相同的序列
$ seqkit common test1.fa test2.fa -s -i -o common.fasta --md5 #輸出要比較的文件中序列相同的序列 (for large sequences)
############################################################################################################################
###提取部分序列,如隨機抽取10000條FASTQ序列做NT污染評估。同時他也可以對FASTA序列提取
#隨機抽取序列
seqkit sample -n 10000 -s 11 test1_1.fq -o sample.fq
seqkit sample -p 0.1 -s 11 test1_1.fq -o sample.fq
###排序輸出命令
seqkit sort -l test.fa
############################################################################################################################
###文件切割
seqkit split hairpin.fa.gz -p 4
seqkit常用命令
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
- 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...