生物信息學-1-BASIC

pair end

pair end是直接在DNA兩端假設接頭進行雙向測序,插入片段長度較短
Paired-end方法是指在構建待測DNA文庫時在“兩端”的接頭上都加上測序引物結合位點,在第一輪完成后,去除第一輪測序的模板鏈,用對讀測序模塊引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量

mate pair

mate pair測序的DNA文庫是將很長的DNA進行環化,環化的接口處連接識別序列,然后打斷,富集含有識別序列的DNA,再進行雙向測序,那么雙向測序的插入片段長度就會很長。
Mate-pair文庫制備旨在生成一些短的DNA片段,這些片段包含基因組中較大跨度(2-10 kb)片段兩端的序列,更具體地說:首先將基因組DNA隨機打斷到特定大小(2-10 kb范圍可選);然后經末端修復,生物素標記和環化等實驗步驟后,再把環化后的DNA分子打斷成400-600 bp的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標記的片段捕獲。這些捕獲的片段再經末端修飾和加上特定接頭后建成mate-pair文庫,然后上機測序(圖3)。
一種測序時的大片段Library構建方法。就是先環化,然后再從特定位置切開,再做雙端測序。這樣可以跨過一些難以拼接的區域,比如重復序列

de novo測序

在不依賴于參考基因組的情況下進行組裝,從而繪制該物種的全基因組序列圖譜。de novo 是拉丁語從頭開始。

DNA mate-pair

(1)定義:首先將基因組DNA隨機打斷到特定大小(2-20kb);然后經末端修復,生物素標記和環化等實驗步驟后,再把環化后的DNA分子打斷成400-600bp的片段并通過帶有鏈親和霉素的磁珠將帶有生物素標記的片段捕獲。這些捕獲的片段再經末端修飾和加上特定接頭后建成大片段文庫,不需要克隆到細菌中,直接在Illumina測序儀上進行測序。通過大片段文庫構建,從而獲得基因組中較大跨度(2-20kb)片段兩端的序列。
(2)用途:DNA Mate-pair文庫制備的整個過程需要5天,這種從較大跨度兩端所獲得的序列對基因組de novo項目的組裝和基因組結構變異發掘具有非常重要的作用。

Q&A

       HTML - http://www.novogene.com/index.php?m=content&c=index&a=lists&catid=46
       Powerpoint - http://wenku.baidu.com/link?url=JaMz6sFYcZCSMv4mRy7pO7WM2_GfoIT3TeRmp9vVgui52zUd_8hY2rzepXw5aLcrYbl_CEGGa7icrgYM9UYqCtkpHU3lYHMOb6duLMgXbNK
  • 什么是Read、Contig、Scaffold、Kmer?
    Read:測序讀到的堿基序列片段,測序的最小單位;
    Contig:由reads通過對overlap區域拼接組裝成的沒有gap的序列段;
    Scaffold:通過pair ends信息確定出的contig排列,中間有gap;
    Kmer:長度為k的核苷酸序列,用于構建de brujin圖。
  • 什么是N50,N70,N90?
    答:把組裝出的contigs或scaffolds從大到小排列,當其累計長度剛剛超過全部組裝序列總長度50%時,最后一個contig或scaffold的大小即為N50的大小,N50對評價基因測序的完整性有重要意義;N70和N90的計算方法與N50類似,只是百分數變為70%或90%。
  • 普通基因組的解決方案?
    SOAPdenovoII進行普通基因組組裝。
    組裝流程
    (1)構建不同長度的插入片段文庫;
    (2)構建de Brujin圖;
    (3)化簡de Brujin圖;
    (4)構建contigs;
    (5)構建scaffolds;
    (6)補gaps;
  • 復雜基因組(二倍體雜合)的解決方案?
    答:針對復雜基因組中二倍體雜合基因組,諾禾致源開發了NOVOheter軟件,成功實現了二倍體雜合基因組組裝。與SOAPdenovo相比,NOVOheter軟件組裝二倍體雜合基因組的技術創新主要體現在以下幾個方面:
    (1)通過高深度測序(200-300X)將基因組上的雜合和純合區域分開;
    (2)利用reads信息和PE關系連接雜合位點,延長原始contigs:在雜合部分間距離較短的情況下,利用reads信息將雜合位點連接起來,若雜合部分間距離較長時,利用Pair-End關系連接雜合位點(所以需要加入更多類型的小片段文庫,以連接不同距離的雜合位點),從而提高了contigs的長度,為后續組裝打下基礎(圖3);
    a:利用深度信息區分雜合部分(覆蓋度為n)和純合部分(覆蓋度為2n);
    b:若雜合部分的距離較短(如60bp),則可利用reads信息將雜合位點連接起來;
    c:若雜合部分的距離較長(如400bp),則利用Pair-End關系,將雜合位點連接起來;
    d:得到雜合contigs。
    注:圖中不同顏色的點表示雜合位點。
    (3)分區域構建scaffolds:同樣利用contigs深度信息區分純合contigs和雜合contigs;利用Pair-End關系將純合contigs,雜合contigs分別組裝成scaffolds;最后將相鄰的純合contigs和雜合contigs進行連接,構建更長的scaffolds。
  • 如何評價組裝結果?
    答:常染色體區的覆蓋度:評價基因組常染色體區的覆蓋度,可以用BAC或者是Fosmid序列來評估;把已公布或者客戶提供的BAC或fosmid克隆序列作為Refrence,將拼接完成的基因組序列map回已知的BAC或者fosmid序列上,檢查拼接的序列對已知序列的覆蓋度到什么水平。
    基因區的覆蓋度:評價基因區的覆蓋度,可以用EST序列或者是轉錄組序列來評估;把已公布或者客戶提供的EST或轉錄組序列作為query序列map到拼接完成的基因組序列上,檢查拼接序列對已知序列的覆蓋度是達到什么水平。
  • 影響基因組組裝的因素?
    答:基因組的重復序列和雜合度,是否污染以及基因組的倍性情況。
  • 基因組項目的標準生物信息分析的內容?
    答:基因組項目的標準生物信息分析的內容如下:
    (1)數據處理;
    (2)基因組組裝:
    基因組評估:基因組大小、GC含量、復雜序列、雜合度評;
    組裝:數據糾錯;Contig、Scaffold組裝;Gap填充;組裝質量分析、評估和結果統計;
    (3)基因組注釋:重復序列注釋;基因預測;基因組功能注釋;非編碼RNA注釋;
    (4)比較基因組學分析:
    基因家族鑒定;
    基因組共線性分析;
    全基因組復制分析(動物:WGAC;植物:WGD);
    正選擇基因的鑒定及功能分析;
    基因家族的擴增收縮分析;
    系統發育分析;
    物種分化時間估計。
  • Kmer 分布
    簡單基因組的Kmer覆蓋深度呈現單峰形式,符合泊松分布
    高雜合二倍體基因組的雜合平均深度是n,純合約是2n,因此會有兩個峰。

Phrap 算法

建立所有overlap的信息,然后組成一個layout重疊片段互相連接,然后對這個圖找Hamilton路(有向帶權圖)。

Euler 算法

構造de brujin圖,然后對這個圖找Euler路,其中圖的路徑是

Shotgun

Shotgun得到reads片段,然后組合而成contigs,連起來稱為supercontigs,最后得到結果。

基因組大小

查詢植物基因組大小的網站:http://data.kew.org/cvalues/CvalServlet?querytype=2
查詢動物基因組大小的網站:http://www.genomesize.com/search.php

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容