寫在前面
- 以下內容均來自菲沙基因(Frasergen)暑期生信培訓班課堂筆記
1. Genome de nove 基礎知識
? 基因組(Genome)
基因組就是物種所含有的一套遺傳物質(單倍體細胞核、細胞器所含的全部DNA分子) , 包括全套基因和間隔序列。
- 基因組
? 基因組測序(Genome Sequencing)
?基因組測序
- 利用測序技術對物種的體內的所有DNA分子進行測序,獲取堿基組成,明確出基因的結構信息,外顯子及內含子區(qū)域、啟動子位置,以及基因的排列順序及功能。
?基因組測序技術
- 二代測序: 基于BGI平臺的邊合成邊測序;
- 三代測序:基于PacBio平臺的單分子實時測序。
?基因組測序原理
- 通過對基因組DNA序列進行打斷處理 ,制作成可以識別或讀取的DNA形式及大小,利用熒光標記對每個堿基信號進行讀取,進而獲得DNA序列信息。
? 基因組從頭測序(Genome de nove)
- 基因組de nove,又稱為基因組從頭測序,是指對基因組序列未知(或僅有基因組草圖)的物種進行全基因組測序,然后進行拼裝,從而得到該物種的全基因組序列,為后續(xù)功能基因挖掘、調控代謝網絡構建、物種進化分析等奠定基礎。
Genome
? 構建參考基因組 pipeline
2. pipeline的功能簡介
? 基因組 Survey 分析
基因組Survey基于小片段文庫的低深度測序數據( 50X-100X ) ;
通過K-mer分析 ,有效的評估基因組大小、GC含量、雜合度以及重復序列的含量等信息;
是全面了解某一物種基因組特征的有效方法;
-
為后續(xù)的全基因組 de novo 測序的組裝策略的制定提供理論依據。
Genome Survey -
補充知識(一): 基因組復雜程度預估
基因組復雜程度預估 -
補充知識(二):根據K-mer圖確認物種倍型
二倍體:雜合峰:主峰:重復峰 = 1:2:4(比值為橫坐標峰的比值)
-
補充知識(三):Survery的優(yōu)勢
? 基因組組裝與注釋
-
基本概念與原理
- Contig:使用短reads之間的overlap關系拼接所得的無GAP序列片段
-
Scaffold:通過大片段文庫將Contig進-步連接所得的長序列片段,各個Contig之間用"N"填補
關系圖 - 組裝質量評價基本指標:ContigN50與SeaffoldN50
組裝質量評價基本指標 - 將組裝所得序列從大到小排列,并依次相加,當累加長度達到總長度一半時,最后一條序列的長度即為N50;一般來說,N50越大,組裝結果的連續(xù)性越好
-
組裝流程
組裝
常用軟件有Canu, MECAT, FALCON。從項目周期、組裝結果、資源消耗等方面綜合來看,菲沙基因(Frasergen)他們首選Mecat 2進行基因組組裝。-
Hi-C輔助組裝
Hi-C數據的一般規(guī)律:
? 染色體內的互作高于染色體間的互作
? 染色體內互作強度隨線性距離增加而減弱
Hi-C輔助組裝 -
組裝結果評估
數據回比:為了評估組裝的完整性和測序覆蓋的均勻性,選擇CLR (Continuous Long Reads) subreads ,使用比對工具Minimap2 ( v2.5默認參數)比對回組裝好的基因組,統(tǒng)計reads的比對率、覆蓋基因組的程度以及深度的分布情況,由此評估組裝的完整性和測序覆蓋的均勻性,結果如下表所示。
數據回比結果
BUSCO評估:基于OrthoDB中的單拷貝同源基因集,使用BUSCO ( V3.0.2 )預測這些基因并統(tǒng)計其完整度,碎片化程度及可能的丟失率。由此評估整個組裝結果中基因區(qū)的完整性(大于90%較好)。BUSCO評估結果如下表所示。BUSCO評估 -
基因結構注釋
基因結構預測包括預測基因組中的基因位點、開放性閱讀框架(ORF)、翻譯起始位點和終止位點、內含子和外顯子區(qū)域、啟動子和終止子、可變剪切位點以及蛋白編碼序列(CDS)等
真核基因結構 -
基因功能注釋
全基因組測序將產生大量數據,此前普遍采用比對方法對對預測出來的編碼基因進行功能注釋,通過與各種功能數據庫(NR、Swiss-Prot 、GO、KOG、KEGG)進行蛋白質比對,獲取該基因的功能信息。其中GO和KEGG數據庫分別在基因功能和代謝通路研究中占據重要地位。
基因功能注釋 -
非編碼RNA注釋
非編碼RNA(ncRNA),指不翻譯成蛋白質的RNA,如
miRNA(MicroRNA),
tRNA(轉運RNA),
rRNA(核糖體RNA),
snRNA(小核RNA)等。
利用tRNAscan-SE對全基因組進行tRNA預測;利用RNAmmer預測全基因的rRNA;利用Rfam數據庫通過cmscan鑒定全基因組非編碼RNA
非編碼RNA -
重復序列分析
重復序列廣泛存在于真核生物基因組中,這些重復序列或集中成簇,或分散在基因之間,根據分布把重復序列分為分散重復序列(Interpersed repeat)和串聯(lián)重復序列(Tendam repeat)
重復序列分析 -
基因組圈圖結果展示基因組圈圖
? 比較基因組學
-
比較基因組學是從基因組中解析生物學意義
比較基因組學流程圖 -
基因家族聚類基因家族聚類
-
系統(tǒng)進化樹系統(tǒng)進化樹
-
物種分歧時間計算物種分歧時間
-
基因家族擴展收縮分析基因家族擴展收縮分析
-
正選擇分析正選擇分析
-
共線性分析(需到染色體水平)共線性分析
-
全基因組復制分析(WGD)全基因組復制分析(WGD)
- 泛基因組分析(需要多份基因組de nove測序數據)
泛基因組分析
寫在最后
- 已發(fā)表動植物基因組文章匯總(截止于2021年)
鏈接:https://pan.baidu.com/s/1t_xbRf4Bj3DoHTQV-y6xAQ
提取碼:yyds
已發(fā)表動植物基因組文章部分截圖(截止于2021年)