生信黑板報(bào)之bioawk

bioawk是李恒開發(fā)的基于linux awk的一個(gè)擴(kuò)展工具。用過awk的都知道,它是一款逐行處理文本的古老編程語言,將文本按行讀進(jìn)來,把每一列映射到一個(gè)數(shù)字類型的變量,方便處理。awk中有不少變量,比如:

$0:指當(dāng)前整行文本,$1 、$2分別指第一列和第二列

NR:number of record,就是行數(shù),對(duì)應(yīng)到全稱方便理解記憶

ORS:output record separator,輸出記錄的分隔符,比如是以逗號(hào)還是制表符(\t)分割

好了,有關(guān)awk的更多用法,就說到這里,有興趣可以看左耳朵耗子的博客。下面繼續(xù)說bioawk,它的作者相信有所涉獵生物信息的同學(xué)已經(jīng)聽過了,如果你不知道的話,那么只需告訴你,他同時(shí)還是BWA和SAMtools的作者就行了。

安裝

which bison #如果看到bison是安裝好了的,跳過下面一步apt-get install bison #如果還沒安裝bison,這里是以u(píng)buntu為例的安裝命令git clonehttps://github.com/lh3/bioawk#從github克隆一份源碼安裝

使用

我們先上例子,再講用法

bioawk-cfastx'END {print NR}'test.fastq

>10000#輸出reads條數(shù)

?

wc-ltest.fastq

>40000test.fastq#由于fastq格式是4行為一個(gè)記錄,和上面的結(jié)果是一致的。這太簡單了,一個(gè)`wc`也能搞定呀,干嘛要用bioawk?別著急,后面還有更猛的。

?

bioawk-cfastx'{print $name, length($seq)}'test-trimmed.fastq#將reads名和長度,分為兩列顯示,以制表符分割,以下僅顯示部分結(jié)果

> SOLEXA2_0414:3:1:11146:1065#0/1-contaminated-19 77

> SOLEXA2_0414:3:1:12658:1069#0/1-contaminated-10 85

> SOLEXA2_0414:3:1:17191:1069#0/1-uncontaminated? 85

......

?

#哦,有點(diǎn)意思哈,下面還有,幾乎所有習(xí)慣用awk做的那些篩選統(tǒng)計(jì),這貨都盡量滿足你 :-)

bioawk-cfastx'BEGIN {short=0} {if(length($seq) < 70) short +=1} END {print "short seq total:",short}'test-trimmed.fastq#統(tǒng)計(jì)長度小于70nt的reads數(shù)并輸出

> short seq total:406

?

#這時(shí)候你兩眼放光,哇,有了它,平常做些簡單的統(tǒng)計(jì)方便多了,都不用寫冗長的awk或者為了統(tǒng)計(jì)序列的長度,都要用BioPython。不僅如此,bioawk還支持bed/SAM/vcf/gff/fasta,是不是很爽?

samtools view YSD.sorted.bam | bioawk-csam'{if($mapq < 10) {print $qname,$mapq} }'| les#如果mapping quality< 10,打印read name和mapping質(zhì)量值

> E00491:44:H3YK7ALXX:1:2216:26179:69555? 0

> E00491:44:H3YK7ALXX:1:1201:23297:30422? 0

> E00491:44:H3YK7ALXX:1:1107:32512:26027? 0

bioawk的幫助很簡短

usage: bioawk-F fs-c fmt-f progfile | 'prog'-F: 輸入記錄列和列之間的分隔符,和awk相同-c: 支持的格式,前面講過-t: 以制表符分割各列,效果等同于bioawk -F'\t' -v OFS="\t"-f:官方文檔沒有介紹,這個(gè)參數(shù)和awk的參數(shù)意義一樣,從文件讀取source命令-H:處理sam文件時(shí),是否包含header

需注意的是,處理BAM文件時(shí),要先用samtools view打開,而后使用管道接上bioawk,不然直接使用bioawk會(huì)亂碼。

本文同步發(fā)布于知乎和公眾號(hào)JackTalk

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,106評(píng)論 6 542
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,441評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,211評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,736評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,475評(píng)論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,834評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,829評(píng)論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,009評(píng)論 0 290
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,559評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,516評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,038評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,728評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,132評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,443評(píng)論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,249評(píng)論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,484評(píng)論 2 379

推薦閱讀更多精彩內(nèi)容

  • awk:報(bào)告生成器,格式化文本輸出 內(nèi)容: awk介紹 awk基本用法 awk變量 awk格式化 awk操作符 a...
    BossHuang閱讀 1,468評(píng)論 0 9
  • awk介紹awk變量printf命令:實(shí)現(xiàn)格式化輸出操作符awk patternawk actionawk數(shù)組aw...
    哈嘍別樣閱讀 1,582評(píng)論 0 4
  • 本章主要學(xué)習(xí)內(nèi)容awk介紹 ?awk基本用法 ?awk變量 ?awk格式化 ?awk操作符 ?awk條件判斷 ?a...
    楠人幫閱讀 1,282評(píng)論 0 8
  • awk: grep,sed,awk grep:文本過濾 sed:文本編輯 awk:文本格式化工具; 1 什么是aw...
    木林森閱讀 1,802評(píng)論 0 16
  • 基礎(chǔ)命令 主要的命令和快捷鍵 Linux系統(tǒng)命令由三部分組成:cmd + [options]+[operation...
    485b1aca799e閱讀 1,115評(píng)論 0 0