1128 轉錄組分析 B站up主天馬行空的坦克兵 (講解清晰易懂)

1128 轉錄組分析 B站up主天馬行空的坦克兵 (講解清晰易懂)


09 ?刪除conda下的某一款軟件 刪除名為rnaseq1環境下的比對軟件STAR:remove -n rnaseq STAR ?????????Ctrl+C停止運行程序 ?(刪前刪后注意查看,查看有兩種,去所屬環境刪除與直接指定環境用命令刪除)

刪除名為rnaseq1環境下所有軟件: remove -n rnaseq --all

?

10 ?安裝mamba - conda的左右手

conda網站上搜索mamba,第一條(下載量最多)匹配出來的mamba,點進去,根據命令安裝。

mamba是所有環境都可能會用到的軟件,并且對整體環境無干擾,所以安裝在base環境。

由于mamba基于conda而產生的,所以使用時必須是在conda激活的環境下。

mamba安裝其他軟件報錯命令不能打開下載文件,沒有這個文件夾或者路徑Couldnt open fiel for download ...(可能是版本不匹配,直接粘貼Github反饋網址,進入看看Mamba軟件更新情況,小姐姐安裝了0.9.1版本(降了版本型號,結果還是不行))


11mamba安裝軟件報錯&conda 安裝軟件卻不報錯(中)

為什么我的which STAR,不顯示STAR軟件的所在路徑呢?但我的STAR --help能夠找到.(注意軟件名大小寫的區別,在安裝時,大小寫仿佛沒有區別但是在搜索查詢時,大小寫要注意區分。)

安裝時可以用bioconda.org官網查詢匹配。


11mamba安裝軟件報錯&conda 安裝軟件卻不報錯(下)

作者嘗試,退出rnaseq環境,進入base環境,新建一個環境,將mamba安裝在新環境下。激活新環境(換環境嘗試,報錯依舊

刪除環境時,必須注意要退出該環境,再進行刪

mamba安裝再base環境下,先退出base,再remove -n base mamba(刪除名為base環境的mamba軟件)

再次嘗試(無效):解壓mamba文件 tar zxvf mamba.gz ./ (無效),拷貝cp app ~/miniconda3 -r; 移動當前文件夾所有文件到上一級文件夾下 mv ./* ../ -r (有空的文件夾,不能拷貝)

?

11 mamba安裝軟件成功案例(最終)---結果作者還是報錯了 ,報錯命令conda has prepared the above report

?

12conda或者mamba安裝軟件經典報錯 HTP000 CONECTION FAILED,HTTP error(經典網絡不行的報錯)

?

13conda安裝軟件報錯 An unexpected error has occured, conda has prepared the above report. 可能安裝的軟件與python版本不匹配,最好改變安裝軟件的版本,因為python包(Python包是基礎配置包)一變,可能會導致其他版本不能用。中等新建新環境,安裝匹配的python版本(麻煩,得反復調用),最次直接在原環境直接更改python版本。

查看版本conda list或 ?軟件名 -V。

?

[if !supportLists]14.?[endif]conda 安裝的兩個軟件是“歡喜冤家”不能共存,其實就是版本沒找對(更新或者降低版本)(版本號要相互對應,要先安裝一個包,再按另一個包,才能使用

那怎么找是否兼容(依存)呢,怎么安裝呢

怎么找對版本:去官網查看有無depend(依存)關系;此外可以運用mamba repoquery denpends 包名 命令去查詢依賴關系(誰依賴mamba) mamba repoquery whoneeds python(誰需要某某軟件)

怎么安裝:---技能三:利用conda安裝最新版本mira和mitbom (參考博主此個視頻,能夠解決不兼容問題。)


15借助conda軟件安裝報錯,出現GLIBCXX_3.4.22 not found問題(安裝上了,為啥查找不到)---軟件庫新建鏈接就行(見up主,fastp軟件系列2與3,解決這個問題)

(命名安裝不了,彈不出幫助文檔)-----(可能是軟件名大小寫問題),想要弄清大小寫,去萬能的官網搜 anaconda.org/search(但是注意官網與服務器大小寫不統一,如star,官網小寫,但是在服務器是大寫的;此外注意服務器中每個字母,每個空格都有特定的意義,不能大意

小思考:(可以考慮做一款推薦版的視頻,每個軟件應該安裝什么版本,安裝的順序----這種效果應該會非常不錯--自己會了之后做這個---up主在第16節就進行了推薦,安裝的話可以借鑒他們實驗室的流程)


16轉錄組分析—總結自己Linux上常用的轉錄組版本軟件

安裝的時候,名稱用trim-galore,查詢的時候,軟件名稱是用trim_galore

可以強烈借鑒作者的各種軟件版本。那樣不會存在版本問題。



17批量下載ebi中的fastaq/SRA數據

準備數據:GSE155902(自身必須根據作者的路程演示一遍***,跟著up主做一遍,可以思考不斷的做PPT進行輸出)

(選擇原因:該組數據分組明確,樣本量較少,便與演示,文章中清晰展示過程,并給出了原始數據----可以自己演示進行比較)

掛在后臺下載NCBI中的數據

nohupwget -c 鏈接 &()368302是其名稱

下載位置:批量下載的話可能下載在家目錄下的NCBI處

Kill 368302(結束進程)

取消下載則先刪除文件rm SRR12415656 ,接著取消后臺下載rm nohup.out

Sra的格式需要用個軟件轉換成FASTAQ格式,不如利用EBI網站搜索轉換,直接下載FASTAQ格式

批量下載(基于文件命名有順序,所以利用for循環指定范圍進行批量下載)】

for循環展示:for i in {1..100} ?(展示1-100,并用空格隔開)

> do echo -ne “$i ”(-ne數字與數字之間以空格隔開)

> done


批量下載命令:

如for i in 52 53 54 55 56 57 58 59 60 61 62 63 ?; do

>{

> nohup wget -c ftp: //ftp.sra.ebi.ac.uk/voll/fastq/SRR124/0${i}/SRR124156${I}/SRR124156${i}_1.fa stq.gz &

>}

>done


Ctrl+P鍵可以顯示之前輸入的命令,Ctrl+N鍵可以顯示下一個常用命令; tail -f nohup .out(可以查看下載進度)



18 解讀轉錄組測序下機數據&fastaq文件,到手的下機數據、利用linux查看fasta文件

一查看什么(測序信息)

查看每個下載數據內部內容,每一行代表什么

zless SRR12415652_1. fasta.gz |head -n 8(只查看該數據集的前8行,up主打算精心講解其組成)

ATCG表示通過紅黃藍綠熒光進行修飾的,N代表沒有讀出熒光顏色,不知道堿基組成。

zless SRR12415652_1. fasta.g 不用管道部分(想看多少看多少)

數據集的內容組成由4行4行的循環格式組成,每一個4行代表

4行中第一行代表的是測序信息(啥樣本(樣本名稱)啥儀器啥泳道啥流動池啥line啥tiel,啥X/Y,最末尾的1代表第一個reads)

行中第二行代表的是堿基順序(如果含N太多的話,需要質控修建掉吧)

第三行代表的是+號(一般沒有內容,有內容也基本與第一行一樣,但是+號必須保留)

第四行代表(第二行每一個堿基的質量值,代表相對應堿基的ASC碼)ASC碼有phred33與phred64碼,目前主要是用phred33,反映堿基質量。

?

19 解讀轉錄組測序下機數據&fastaq文件(同18)


20轉錄組分析——怎么才能知道下載的fastq文件是否完整--md5sum(校驗碼)文件輕松搞定

用md5sum *gz >md5.txt(將當前位置所有md5sum *gz文件寫入md5.txt文件,目錄下會多一個md5.txt文件,可以用md5查看文件完整性)---- cat md5.txt(可以比對公司的或者網站數據庫提供的,確認數據是否被改動或者有缺失) ?md5sum -c md5.txt(可以用于反饋下載數據是否完整



21轉錄組分析 ?---對GSE155902批量fastQC質控

檢查完數據完整性之后,進行質控,質控利用fastQC軟件,一般都是批量進行質控

查看當前文件夾下有多少格文件ls |wc -l

[if !supportLists]一、[endif]先展示單個進行質控

激活安裝軟件的小環境conda activate fastQC

接著開始質控fastqc -t 2 SRR12415652_1.fastq.gz(-t 2代表的是兩個線程,跑的可能稍微慢些)

ls質控之后,會生成一個SRR12415652_1.fastq.html(網頁),可以下載該網頁進行查看,每次質控,都會生成一個zip

二、批量質控

用通配符ls *gz |xargs fastqc -t 5

避免一個一個點開相應的html進行查看(上百個不得點死,所以multiqc來了),可以將各自的html打包成一個html總文件進行查看

用multiqc ./(直接匯總生成multiqc的html)

可以下載到桌面進行查看,也可以用軟件進行查看。



22轉錄組分析---對GSE155902批量trim_galore質量控制

創建一個名為rawdata_qc的文件mkdir rawdata_qc

將所有html、zip文件都放在該文件夾下mv *html ./rawdata_qc

mv *zip ./rawdata_qc/

mv multiqc_data/ ./rawdata_qc/

創建一個文件rawdata

把所有gz結尾文件放入該文件夾下 mv *gz ./rawdata

ls

cd rawdata

用原始數據進行質控(所有相應操作必須要有相應軟件---trim_galore安裝之前,必須先安裝cutadapt

批量進行處理(原始數據質控處理)

用ls *_1.*gz>1 ?(把1結尾的文件寫成1結尾的文本文件)

用ls *_2.*gz>1 ?(把2結尾的文件寫成2結尾的文本文件)

paste 1 2 > config ??(把1與2并排排列,整理在一個文件夾下)

Mkdir cleandata cleandata_qc(建立cleandata文件與其質控文件)

用dir=”./cleandata”(指定輸出路徑)

用cat config |while read id ??????????????(讀取列表)

do

arr=${id}

fq1=${arr[0]}

fq2=${arr[1]}

nohup trim_galore -q 25 --phred33、64



23 轉錄組分析錄屏 ---對trim_galore質控后的fastq文件fastqc一下,看一下質控效果

進入質控完的結果的目錄下

cd cleandata后將cleandata_qc放在cleandata下(原始文件gz結尾,質控文件fq.gz結尾)

測序長度,由于后續重復較高,設置為20-100,20太低了,所以up主將其調為


質控效果不好,所以作者打算重新進行質控

?

找幾篇文章看看轉錄組測序數據質控結果怎么閱讀?明白fastqc與multiqc處理之后,結果的閱讀方式。


24 轉錄組分析——trim_galore軟件的使用方法(講解質控文件trim_galore的幫助文檔)

[if !supportLists]1-?[endif]conda avcivate rnaseq

[if !supportLists]2-?[endif]trim_galore(想用必須安裝cutadapt)

[if !supportLists]3-?[endif]trim_galore利用trim_galore --help查看該軟件的使用說明,-q(保證每一個堿基的之質量,默認是20,up主一般用25); -phred33 (sanger測序1.9的話就是ASC‖+33,其余則是64(普遍是33型); --fastqc (運行FastQC,產生FastQC文件); 實在不行可以運用百度搜索例子。--stringency(接頭序列重復不能超過一個.?不大理解該含義) -e(錯誤率設置為0.1) ?--length(長度默認20,太短的話比對序列會顯著增加) ?--max n (最多允許幾個n出現) ?--trim-n(去除n堿基)

[if !supportLists]4-?[endif]trim_galore -l 25 -stringency 3 -q 25 --phread 33(堿基長度設置為25,接頭重復不能超過3否則會被刪除,堿基質量值要大于25, ASC‖堿基質量評估類型) ?需要什么參數,按照help文檔進行添加即可


哎,作者又斷了,算了,把作者相應的技能視頻也先學了把。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容