生信 | 基因組組裝實戰(zhàn)(一):基礎知識與基本思路

寫在前面

  • 以下內容均來自菲沙基因(Frasergen)暑期生信培訓班課堂筆記

1. Genome de nove 基礎知識

? 基因組(Genome)

基因組就是物種所含有的一套遺傳物質(單倍體細胞核、細胞器所含的全部DNA分子) , 包括全套基因和間隔序列。

  • 基因組

? 基因組測序(Genome Sequencing)

?基因組測序

  • 利用測序技術對物種的體內的所有DNA分子進行測序,獲取堿基組成,明確出基因的結構信息,外顯子及內含子區(qū)域、啟動子位置,以及基因的排列順序及功能。

?基因組測序技術

  • 二代測序: 基于BGI平臺的邊合成邊測序;
  • 三代測序:基于PacBio平臺的單分子實時測序。

?基因組測序原理

  • 通過對基因組DNA序列進行打斷處理 ,制作成可以識別或讀取的DNA形式及大小,利用熒光標記對每個堿基信號進行讀取,進而獲得DNA序列信息。

? 基因組從頭測序(Genome de nove)

  • 基因組de nove,又稱為基因組從頭測序,是指對基因組序列未知(或僅有基因組草圖)的物種進行全基因組測序,然后進行拼裝,從而得到該物種的全基因組序列,為后續(xù)功能基因挖掘、調控代謝網絡構建、物種進化分析等奠定基礎。
    Genome

? 構建參考基因組 pipeline

構建參考基因組 pipeline

2. pipeline的功能簡介

? 基因組 Survey 分析

  • 基因組Survey基于小片段文庫的低深度測序數據( 50X-100X ) ;

  • 通過K-mer分析 ,有效的評估基因組大小、GC含量、雜合度以及重復序列的含量等信息;

  • 是全面了解某一物種基因組特征的有效方法;

  • 為后續(xù)的全基因組 de novo 測序的組裝策略的制定提供理論依據。

    Genome Survey

  • 補充知識(一): 基因組復雜程度預估
    基因組復雜程度預估
  • 補充知識(二):根據K-mer圖確認物種倍型

二倍體:雜合峰:主峰:重復峰 = 1:2:4(比值為橫坐標峰的比值)

二倍體K-mer圖
三倍體:正常情況下雜合峰:主峰:重復峰 = 1:2:3(左圖)。主峰和重復峰深度低則可能重疊在一起:雜合峰:主峰:重復峰 = 1:2(右圖)]
三倍體K-mer圖
異源四倍體:2個峰,呈現1:2的關系
異源四倍體K-mer圖
同源四倍體:同源四倍體的峰就是1 : 2 : 3 : 4 ,其中3和4經常重疊在一起
同源四倍體K-mer圖

  • 補充知識(三):Survery的優(yōu)勢
Survery的優(yōu)勢

? 基因組組裝與注釋

  • 基本概念與原理
  • Contig:使用短reads之間的overlap關系拼接所得的無GAP序列片段
  • Scaffold:通過大片段文庫將Contig進-步連接所得的長序列片段,各個Contig之間用"N"填補
    關系圖
  • 組裝質量評價基本指標:ContigN50SeaffoldN50
    組裝質量評價基本指標
  • 將組裝所得序列從大到小排列,并依次相加,當累加長度達到總長度一半時,最后一條序列的長度即為N50;一般來說,N50越大,組裝結果的連續(xù)性越好
  • 組裝流程
組裝流程
  • 組裝
    常用軟件有Canu, MECAT, FALCON。從項目周期、組裝結果、資源消耗等方面綜合來看,菲沙基因(Frasergen)他們首選Mecat 2進行基因組組裝。

  • Hi-C輔助組裝
    Hi-C數據的一般規(guī)律:
    ? 染色體內的互作高于染色體間的互作
    ? 染色體內互作強度隨線性距離增加而減弱


    Hi-C輔助組裝
  • 組裝結果評估

    數據回比:為了評估組裝的完整性和測序覆蓋的均勻性,選擇CLR (Continuous Long Reads) subreads ,使用比對工具Minimap2 ( v2.5默認參數)比對回組裝好的基因組,統(tǒng)計reads的比對率、覆蓋基因組的程度以及深度的分布情況,由此評估組裝的完整性和測序覆蓋的均勻性,結果如下表所示。
    數據回比結果

    BUSCO評估:基于OrthoDB中的單拷貝同源基因集,使用BUSCO ( V3.0.2 )預測這些基因并統(tǒng)計其完整度,碎片化程度及可能的丟失率。由此評估整個組裝結果中基因區(qū)的完整性(大于90%較好)。BUSCO評估結果如下表所示。
    BUSCO評估
  • 基因結構注釋
    基因結構預測包括預測基因組中的基因位點、開放性閱讀框架(ORF)、翻譯起始位點和終止位點、內含子和外顯子區(qū)域、啟動子和終止子、可變剪切位點以及蛋白編碼序列(CDS)等


    真核基因結構
  • 基因功能注釋
    全基因組測序將產生大量數據,此前普遍采用比對方法對對預測出來的編碼基因進行功能注釋,通過與各種功能數據庫(NR、Swiss-Prot 、GO、KOG、KEGG)進行蛋白質比對,獲取該基因的功能信息。其中GO和KEGG數據庫分別在基因功能和代謝通路研究中占據重要地位。

    基因功能注釋

  • 非編碼RNA注釋
    非編碼RNA(ncRNA),指不翻譯成蛋白質的RNA,如
    miRNA(MicroRNA),
    tRNA(轉運RNA),
    rRNA(核糖體RNA),
    snRNA(小核RNA)等。
    利用tRNAscan-SE對全基因組進行tRNA預測;利用RNAmmer預測全基因的rRNA;利用Rfam數據庫通過cmscan鑒定全基因組非編碼RNA


    非編碼RNA
  • 重復序列分析
    重復序列廣泛存在于真核生物基因組中,這些重復序列或集中成簇,或分散在基因之間,根據分布把重復序列分為分散重復序列(Interpersed repeat)和串聯(lián)重復序列(Tendam repeat)


    重復序列分析
  • 基因組圈圖結果展示
    基因組圈圖

? 比較基因組學

  • 比較基因組學是從基因組中解析生物學意義


    比較基因組學流程圖
  • 基因家族聚類
    基因家族聚類
  • 系統(tǒng)進化樹
    系統(tǒng)進化樹
  • 物種分歧時間計算
    物種分歧時間
  • 基因家族擴展收縮分析
    基因家族擴展收縮分析
  • 正選擇分析
    正選擇分析
  • 共線性分析(需到染色體水平)
    共線性分析
  • 全基因組復制分析(WGD)
    全基因組復制分析(WGD)
  • 泛基因組分析(需要多份基因組de nove測序數據)
    泛基因組分析

寫在最后

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,106評論 6 542
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 99,441評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,211評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,736評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,475評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,834評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,829評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,009評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 49,559評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,306評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,516評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,038評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,728評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,132評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,443評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,249評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,484評論 2 379

推薦閱讀更多精彩內容