Linux練習(xí)題

一、在任意文件夾下面創(chuàng)建形如 1/2/3/4/5/6/7/8/9 格式的文件夾系列。

mkdir –p 1/2/3/4/5/6/7/8/9
pwd


二、在創(chuàng)建好的文件夾下面,比如我的是 /tmp/test/1/2/3/4/5/6/7/8/9 ,里面創(chuàng)建文本文件 me.txt。

touch me.txt


三、在文本文件 me.txt 里面輸入內(nèi)容:

Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?

cat > me.txt
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?
Ctrl+d


四、刪除上面創(chuàng)建的文件夾 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

rm –rf 1/
rm –rf me.txt


五、在任意文件夾下面創(chuàng)建 folder1~5這5個(gè)文件夾,然后每個(gè)文件夾下面繼續(xù)創(chuàng)建 folder1~5這5個(gè)文件夾

mkdir –p folder_{1..5}/folder_{1..5}


六、在第五題創(chuàng)建的每一個(gè)文件夾下面都 創(chuàng)建第二題文本文件 me.txt ,內(nèi)容也要一樣。

touch folder_{1..5}/folder_{1..5}/me.txt
vim me.txt (輸入內(nèi)容)
echo folder_{1..5}/ folder_{1..5}|xargs –n 1
echo folder_{1..5}/ folder_{1..5}|xargs –n 1 cp me.txt –v
ls * / * /


七、再次刪除掉前面幾個(gè)步驟建立的文件夾及文件

rm –rf folder_*
rm –rf me.txt


八、下載http://www.biotrainee.com/jmzeng/igv/test.bed 文件,后在里面選擇含有 H3K4me3 的那一行是第幾行,該文件總共有幾行。

wget –c http://www.biotrainee.com/jmzeng/igv/test.bed
ls
pwd
grep -n -o --color H3K4me3 /root/test/test.bed
(-n 標(biāo)記行數(shù),-o 只顯示匹配上的,--color匹配文字出現(xiàn)顏色)
cat test.bed |wc -l
(wc顯示文件的行數(shù)、單詞數(shù)、字節(jié)數(shù))


九、下載 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解壓,查看里面的文件夾結(jié)構(gòu)

wget -c http://www.biotrainee.com/jmzeng/rmDuplicate.zip
ls
yum install -y unzip zip;
unzip rmDuplicate.zip
yum install -y tree
ls
tree rmDuplicate


十、打開(kāi)第九題解壓的文件,進(jìn)入rmDuplicate/samtools/single 文件夾里面,查看后綴為 .sam 的文件,搞清楚 生物信息學(xué)里面的SAM/BAM 定義是什么。

cd rmDuplicate/samtools/single
ls
cat tmp.sam | head

SAM/BAM 定義是什么

Sam:頭部注釋信息和比對(duì)結(jié)果,每行包含12列,以tab分隔
Bam:SAM的二進(jìn)制文件,內(nèi)存小
1)注釋信息可有可無(wú),都是以@開(kāi)頭
@HD,說(shuō)明符合標(biāo)準(zhǔn)的版本、對(duì)比序列的排列順序;
@SQ,參考序列說(shuō)明;
@RG,比對(duì)上的序列(read)說(shuō)明;
@PG,使用的程序說(shuō)明;
@CO,任意的說(shuō)明信息。
2)詳細(xì)比對(duì):11個(gè)tab隔開(kāi)的字段
第一列:序列名稱
第二列:序列標(biāo)記信息
1 序列是一對(duì)序列中的一個(gè)
2 比對(duì)結(jié)果是一個(gè)pair-end比對(duì)的末端
4 沒(méi)有找到位點(diǎn)
8 這個(gè)序列是pair中的一個(gè)但是沒(méi)有找到位點(diǎn)
16 在這個(gè)比對(duì)上的位點(diǎn),序列與參考序列反向互補(bǔ)
32 這個(gè)序列在pair-end中的的mate序列與參考序列反響互補(bǔ)
64 序列是 mate 1
128 序列是 mate 2
如果以上情況都不符合則默認(rèn)為0
第三列:比對(duì)上的參考基因染色體號(hào)。沒(méi)比對(duì)上則顯示*
第四列:比對(duì)上的在參考基因組上的起始位置,沒(méi)有比對(duì)上則為0
第五列:比對(duì)質(zhì)量分?jǐn)?shù)。數(shù)字越大,特異性越高。但值為255是指比對(duì)質(zhì)量不可用
第六列:比對(duì)結(jié)果的CIGAR 的字符串
(即比對(duì)的詳細(xì)情況, 記錄插入,刪除,錯(cuò)配,后剪切拼接的接頭 。以參考序列為基礎(chǔ),使用數(shù)字+字母表示比對(duì)結(jié)果。)
單端測(cè)序沒(méi)有第7-9
第七列:RNEXT ,雙端測(cè)序中下一個(gè)reads比對(duì)的參考系列的名稱。“*”是完全沒(méi)有比對(duì)上,“=”代表完全比對(duì)
第八列:PNEXT 如果是雙端測(cè)序,是指另一端匹配到參考基因組的位置,如果設(shè)置為0,那么該列不可用
第九列: TLEN Template的長(zhǎng)度,最左邊得為正,最右邊的為負(fù),中間的不用定義正負(fù),不分區(qū)段(single-segment)的比對(duì)上,或者不可用時(shí),此處為0;
第十列:SEQ序列片段的序列信息,如果不存儲(chǔ)此類信息,此處為’*‘,注意CIGAR中M/I/S/=/X對(duì)應(yīng)數(shù)字的和要等于序列長(zhǎng)度;
第十一列:QUAL序列的質(zhì)量信息,格式同F(xiàn)ASTQ一樣。ASCII碼
第十二列:可選字段 格式:TAG:TYPE:VALUE TAG是兩個(gè)大寫字母,每個(gè)TAG代表一類信息。TYPE代表TAG對(duì)應(yīng)值的類型(字符串、數(shù)組、字節(jié)等)


十一、安裝 samtools 軟件

(提前預(yù)裝好conda)
conda install samtools
輸入`y


十二、打開(kāi) 后綴為BAM 的文件,找到產(chǎn)生該文件的命令。 提示一下命令是:

/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp

cd rmDuplicate/samtools/single
ls
which samtools(查找路徑)
samtools(路徑) view -H tmp.rmdup.bam

產(chǎn)生bam文件的命令一般都在頭部注釋信息中,但都會(huì)放在最后用tail
tail -n 3 tmp.header


十三題、根據(jù)上面的命令,找到我使用的參考基因組 /home/jianmingzeng/reference/index/bowtie/hg38 具體有多少條染色體。

samtools view -H tmp.rmdup.bam |grep -o -E "SN:chr[0-9]+|SN:chr[a-zA-Z]+"|sort |uniq -c |wc -l


十四題、上面的后綴為BAM 的文件的第二列,只有 0 和 16 兩個(gè)數(shù)字,用 cut/sort/uniq等命令統(tǒng)計(jì)它們的個(gè)數(shù)。

samtools(路徑) view tmp.rmdup.bam | cut -f 2 | sort -n | uniq -dc


十五題、重新打開(kāi) rmDuplicate/samtools/paired 文件夾下面的后綴為BAM 的文件,再次查看第二列,并且統(tǒng)計(jì)

cd rmDuplicate/samtools/paired
ls
samtools(路徑) view tmp.rmdup.bam | cut -f 2 | sort -n | uniq -dc


十六題、下載 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解壓,查看里面的文件夾結(jié)構(gòu), 這個(gè)文件有2.3M,注意留心下載時(shí)間及下載速度。

wget -c http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
unzip sickle-results.zip
tree sickle-results


十七題、解壓 sickle-results/single_tmp_fastqc.zip 文件,并且進(jìn)入解壓后的文件夾,找到 fastqc_data.txt 文件,并且搜索該文本文件以 >>開(kāi)頭的有多少行?

unzip sickle-results/single_tmp_fastqc.zip
cd single_tmp_fastqc
cat fastqc_data.txt | grep '>>' | wc -l


十八題、下載 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感興趣的基因?qū)?yīng)的 refseq數(shù)據(jù)庫(kù) ID,然后找到它們的hg38.tss 文件的哪一行。(https://www.ncbi.nlm.nih.gov/gene/7157)


wget -c http://www.biotrainee.com/jmzeng/tmp/hg38.tss
grep NM_000546 hg38.tss

關(guān)于它的ID:NM開(kāi)頭的表示標(biāo)準(zhǔn)序列,XM表示預(yù)測(cè)的蛋白編碼序列,NR表示非編碼蛋白的mRNA序列,AF開(kāi)頭的表示克隆序列,BC開(kāi)頭的表示模板序列
另外,你可能見(jiàn)過(guò)gi|4557284|ref|NM_000646.1|[4557284]這種格式
gi就是代表genebank identifier;ref就是對(duì)應(yīng)的refseq中的ID啦


十九題、解析hg38.tss 文件,統(tǒng)計(jì)每條染色體的基因個(gè)數(shù)。(2種方法)

  1. less hg38.tss
    cut -f2 hg38.tss |cut -d'_' -f1 |sort |uniq -c |sort -rn
  2. cat hg38.tss |cut -f 2|grep -o -E "chr[0-9]{1,2}|chr[a-zA-Z]{1,2}"|sort |uniq -dc

二十題、解析hg38.tss 文件,統(tǒng)計(jì)NMNR開(kāi)頭的序列,了解NMNR開(kāi)頭的含義。(3種方法)

  1. cat hg38.tss |grep 'NM' | wc -l
    cat hg38.tss |grep 'NR' | wc -l
  2. grep -o -E "NM|NR" hg38.tss |sort |uniq -dc
  3. cat hg38.tss |awk '{print $1}'|cut -c1-2|sort|uniq -c
    (只帶有前2個(gè)字母進(jìn)行統(tǒng)計(jì))
NM:開(kāi)頭表示標(biāo)準(zhǔn)序列。可以轉(zhuǎn)錄成蛋白質(zhì)的基因
NR:開(kāi)頭表示非編碼蛋白的mRNA序列


數(shù)據(jù)練習(xí)

  • (首先下載好數(shù)據(jù))
  1. 看文件大小
    ll -h *.gff
  2. 看文本內(nèi)容
    less -SN *.gff
  3. 去除多余的#注釋行與 空行,并打印行號(hào)
    grep -v "#" *.gff | grep -v "^$" | wc -l
  4. 截取文件1-5列,將第2列去除,輸出默認(rèn)的前10行到test.txt中
    cut -f 1,3,4,5 *.gff > test.txt
    cat test.txt | head
  • (然后對(duì)截取的test.txt進(jìn)行處理)
  1. 根據(jù)第2列的feature進(jìn)行排序
    sort -k 2,2 test.txt | head -n5
  2. 先根據(jù)第1列Chr數(shù)字大小降序排序(第一個(gè)字段的第四個(gè)字符),再根據(jù)第2列排序
    sort -k 1.4,1.4nr -k 2,2 *.txt | head -n5
  3. 統(tǒng)計(jì)整體的feature(第3列)
    cut -f 3 *.gff |sort|uniq -c >feature.txt
  4. 哪個(gè)feature最多
    sort -k 1r feature.txt

練習(xí):
GENCODE下載人類基因組GRCh38注釋gff3,然后統(tǒng)計(jì)人類基因組feature(第1列 參照序列,2來(lái)源,3類型,4起點(diǎn),5終點(diǎn),6得分,7鏈(正負(fù)鏈),8步進(jìn),9屬性)
1.下載
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/gencode.v28.annotation.gff3.gz
2.解壓
gunzip gencode.v28.annotation.gff3.gz
3.看文本內(nèi)容
less -SN *.gff3
4.去除多余的#注釋行與 空行,統(tǒng)計(jì)整體的feature(第3列)
grep -v "#" *.gff3 | grep -v "^$" | cut -f 3 |sort|uniq -c >feature.txt
5.查看文件(前10行)
cat feature.txt | head

  1. 哪個(gè)feature最少(從小到大)
    sort -k 1n feature.txt
    (從大到小)
    sort -k1,1nr feature.txt

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,431評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,637評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 178,555評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 63,900評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,629評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 55,976評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,976評(píng)論 3 448
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 43,139評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,686評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,411評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,641評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,129評(píng)論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,820評(píng)論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 35,233評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 36,567評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,362評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,604評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容