【生物信息筆記】fastq demultiplex(dry-6)

什么是illumina bcl 格式和fastq格式:

參考:https://zhuanlan.zhihu.com/p/26506787

Illumina測序儀下機的數據通常為bcl格式,是將同一個測序通道(Lane)所有樣品的數據混雜在一起。每個Lane里有n個樣品的fastq.gz和一個undetermined.fastq.gz。區分每一樣品的方法是根據不同的index。

Illumina官方出品的Bcl2FastQ軟件,根據Index序列分割轉換成每個樣品的FastQ文件,打開長這樣:

每一條read,包含四行,第一行read的ID,最后幾個堿基序列是index;第二行是你的library里的DNA的序列(應該是不包括index和barcord primer 序列了);第三行+/-應該代表正鏈反鏈(具體沒什么意義);第四行,每個堿基的測序質量。以上就是fastaq的嘴臉。

#常用軟件#

我以前都是用cutadapt + FASTX-Toolkit的組合,直到同事們給我推薦了Trim Galore,質量評估使用FastQC。

BCL 格式文件是Illumina DNA sequencing instruments (HiSeq 或者 MiSeq) 創建的文件。BCL文件可以被CASAVA系統進行分析。也可以通過Illumina DNA sequencing instruments轉化成QSEC格式文件。

Illumina Miseq的官方中文介紹

bcl文件的位置:

Miseq的Bcl文件位置在e.g.: /sequencedata/MiSeq/170808_M00528_0300_000000000-AP0TP/Data/Intensities/BaseCalls/L001/C1.1

我們的Miseq data是自動傳入到服務器里的,我們連接到服務器后就可以進入到這個文件夾。

bcl2fastq2安裝及其依賴gcc,boost,cmake等的安裝

bcl2fastq2 Conversion v2.19 使用指導

bcl2fastq2 release NOTE 官網

bcl2fastq 軟件常見的問題:

KNOWN ISSUES:

?Corrupted *.bcl or *.bcl.gz files may cause bcl2fastq to stall indefinitely.

?No index sequences are included in the header for each read in the resulting FASTQ

files if bcl2fastq is run without providing a sample sheet file.

?The HTML report files will not display statistics for samples and projects named“default”, “all”, “unknown”, and “undetermined”.

?The HTML report, Stats.json, and ConversionStats.xml files incorrectly reports the

% ≥ ??30metric by excluding bases with quality score 30 (i.e. the number reported is

actually % > Q30).

?5’ adapter trimming is not supported.

?“N” is incorrectly allowed as anindex sequence character in the sample sheet. When

used, this will cause a mismatch for any sequence character other than “N”.

?No warnings or errors are displayed when bcl2fastq is used to process run folders

that are missing control files.

?Sample sheet files generated from Illumina Experiment Manager may cause bcl2fastq

to abort if they contain non-ASCII characters. Only alphanumeric characters dashes,

and underscores are allowed in the sample sheet.

在使用bcl2fastq時候sample sheet的正確格式:

Illumina剛下機的數據為bcl格式文件(per-cycle BCL basecall file),但是下游的分析一般都需要fastq格式文件,所以在進行下游分析之前,需要使用CASAVA軟件中的configureBclToFastq.pl將bcl格式的文件根據每個樣本之前添加的index分出,并轉為fastq格式的文件。在看bcl2fastq的說明文檔時,會經常碰到一個詞:demultiplexing,指的就是將multiplexed的reads根據index從不同或者同一個lane中分出,生成sample對應的fastq文件,這一步就涉及到輸入正確的samplesheet.csv。

所有的步驟只使用一行代碼就可以解決,首先貼出代碼:

參考:chen_amiao的博客




以下參考:

bcl2fastq是illumina官方提供的bcl文件轉化為fastq軟件。

Google或官網搜索最新版,https://support.illumina.com/downloads/bcl2fastq-conversion-software-v217.html

下載

bcl2fastq2 Conversion Software v2.17 Installer (Linux tarball)? 安裝源文件

bcl2fastq2 Conversion Software v2.17 Guide (15051736 G)???? 介紹文件pdf

電腦Ubuntu14.04準備環境:

?To build bcl2fastq2 Conversion Software v2.17, you need the following software.Versions listed are tested and supported; newer versions are untested.

} gcc 4.7 (with support for c++11)

} boost 1.54 (with its dependencies)

} CMake 2.8.9

} zlib

} librt

} libpthread??

系統:bio-linux8

1.更新軟件(安裝環境)?

sudo apt-get update

sudo apt-get upgrade

sudo apt-get install zlibc

sudo apt-get install libc6 # provides librt and libpthread

sudo apt-get install gcc

sudo apt-get install g++

sudo apt-get install libboost1.54-all-dev

sudo apt-get install cmake??

#設置變量

export TMP=/tmpexport SOURCE=${TMP}/bcl2fastq

export BUILD=${TMP}/bcl2fastq2-v2.17.1.14-build

export INSTALL_DIR=/usr/local/bcl2fastq2-v2.17.1.14

cd ${TMP}?

#軟件包放在?/home/me/下載/bcl2fastq2/

tar -xvzf /home/me/下載/bcl2fastq2/bcl2fastq2-v2.17.1.14.tar.gz

mkdir ${BUILD}

cd ${BUILD}

sudo ${SOURCE}/src/configure --prefix=${INSTALL_DIR}?

#上步顯示成功,繼續下面,未成功則可能是有些軟件包沒裝好,重新更新下依賴環境

make

make install?

#################測試##################

/usr/local/bcl2fastq2-v2.17.1.14/bin/bcl2fastq -v

2.運行參數?-h?

/usr/local/bcl2fastq2-v2.17.1.14/bin/bcl2fastq -h ?

參考:http://nhoffman.github.io/borborygmi/compiling-bcl2fastq-on-ubuntu.html#sec-2

https://support.illumina.com/content/dam/illumina-support/documents/documentation/software_documentation/bcl2fastq/bcl2fastq2-v2-17-software-guide-15051736-g.pdf

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,791評論 6 545
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,795評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,943評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,057評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,773評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,106評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,082評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,282評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,793評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,507評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,741評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,220評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,929評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,325評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,661評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,482評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,702評論 2 380

推薦閱讀更多精彩內容