一、生物信息學研究方向:
? 1.序列比對:
BLAST算法、FASTA算法。
? 2.蛋白質比對。
? 3.基因識別分析:
測量密碼區密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
? 4.分子進化:
常采用的方法是構造進化樹,通過基于特征(即DNA序列或蛋白質中的氨基酸的堿基的特定位置)和基于距離(對齊的分數)的方法和一些傳統的聚類方法(如UPGMA)來實現。
? 5.序列重疊群(Contigs)裝配。
? 6.遺傳密碼。
? 7.藥物設計。
? 8.生物系統:
生物系統的模擬、系統穩定性分析、系統魯棒性分析等等。
? 9.技術方法:
需要像非參數統計(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數據分析技術。高維數據的分析需要偏最小二乘(partial least squares,PLS)等特征空間的壓縮技術。在計算機算法的開發中,需要充分考慮算法的時間和空間復雜度,使用并行計算、網格計算等技術來拓展算法的 可實現性。
? 10.其他:
如基因表達譜分析,代謝網絡分析;基因芯片設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,藥物基因組學,中藥基因組學,腫瘤基因組學,分子流行病學和環境基因組學,成為系統生物學的重要研究方法。
二、研究方法:
? 以數據(庫)為核心
? 1.數據庫的建立
? 2.生物學數據的檢索
? 3.生物學數據的處理
? 4.生物學數據的利用:計算生物學
三、主要課程:
? 普通生物學、生物化學、分子生物學、遺傳學、生物信息學、計算生物學、基因組學、生物芯片原理與技術、蛋白質組學、模式識別與預測、數據庫系統原理、Linux基礎及應用、生物軟件及數據庫、Perl編程基礎等。
四、知識技能:
1.掌握普通生物學、生物化學、分子生物學、遺傳學等基本知識和實驗技能;
2.掌握計算機科學與技術基本知識和編程技能(包括計算機應用基礎、Linux基礎及應用、數據庫系統原理、模式識別與預測、生物軟件及數據庫、Perl編程基礎等),具備較強的數學和統計學素養(高等數學I、II、生物統計學等);
3.掌握生物信息學、基因組學、計算生物學、蛋白質組學、生物芯片原理與技術的基本理論和方法,初步具備綜合運用分子生物學、計算機科學與技術、數學、統計學等知識和技能,解決生物信息學基本問題的能力;
4.掌握生物信息學資料的查詢、文獻檢索及運用現代信息技術獲得相關信息的基本方法,具有一定的實驗設計、結果分析、撰寫論文、參與學術交流的能力;
5.熟悉國家生物信息產業政策、知識產權及生物安全條例等有關政策和法規;
6.了解生物信息學的理論前沿、應用前景和最新發展動態;
7.具有較好的科學人文素養和較強的英語應用能力,具備較強的自學能力、創新能力和獨立解決問題的能力;
8.具有良好的思想道德素質和文化素養,身心健康;
9.具有較好的科學素質、競爭意識、創新意識和合作精神。
補充:
?文庫制備:基因組DNA/cDNA片段化處理至300-800bp間,經末端修復與特異性接頭連接等修飾后變性處理回收單鏈的DNA 。 Emulsion PCR:單鏈DNA文庫被固定在DNA捕獲磁珠上,乳化,形成油包水的混合物,每個獨特的片斷在自己的微反應器里進行獨立的擴增,回收純化;
?可逆阻斷技術:Illumina/Solexa新測序技術基本原理是邊合成測序(sequencing by synthesis,SBS) ,即測序過程是以DNA單鏈為模板,在生成互補鏈時,利用帶熒光標記的dNTP發出不同顏色的熒光來確定不同的堿基,新加入dNTP的3’末端羥基被可逆的保護基團封閉,既保證單次反應只能加入一個堿基,又能在該堿基讀取完畢后,將保護基團除去,使得下一個反應可繼續進行,為了增加熒光強度,使之更易被成像系統所采集. 兩個比較核心的專利技術:1、生成DNA簇的過程2、可逆性的末端終止
?測序流程:文庫制備、油包水相擴增、收集純化磁珠、上級測序、數據分析
?NGS:1.NGS讀長短,無法檢測重復區域及SV,海量冗余數據,分析復雜難拼接。2.NGS需要PCR,有偏好性,高GC/AT含量區域及回文序列區域難以跨越。3.無法將誤差和稀有區域相區分。4.無法直接檢測堿基修飾,需先轉化再檢測,實驗復雜。
?PacBio:1.讀長長。2.無需PCR,酶學系統強大,可均勻覆蓋基因組。3.信號更真實,數據更準確。3.可在測序的同時直接得到堿基修飾信息,信息通用,唯一能將基因組學和表觀遺傳學統一分析。應用:基因組輔助組裝,細菌、真菌完成圖,16s全長測序,甲基化測序,CNV、SV檢測,全長轉錄組測序,HLA分型
?Ilumina測序原理:邊合成邊測序、可阻斷技術、橋式PCR
?Denove:從頭測序,不需要任何基因組信息即可對某個物種進行測序,利用生物信息學方法對序列驚醒拼接組裝。產品:快速基因組調研圖、標準基因組精細圖、高質量基因組精細圖、泛基因組測序。
?分析內容:基因組注釋、基因功能注釋、基因組復制和物種進化樹、泛基因組:比較基因組分析
?Read:測序讀到的堿基序列,組裝的最小單位
?Pair ends:一定長度的基因組片段末端測序產生的成對reads
?Insert size:插入片段大小(雙端測序起始位點之間的距離)
?Contig:由reads組裝成的沒有gap的序列
?Scaffold:通過pair ends信息確定出的contig排列,中間有gap
?N50:將一組序列按長度排序,累加到長度和超過總長的50%時的那個contig(或者說scaffold)的長度。N50是衡量組裝完整性的指標
?快速調研:基因組大小、GC含量、重復序列比例、測序樣本雜合度
?標準基因組精細圖:利用二代測序完成基因組的基因組組裝、注釋和常規比較基因組和進化分析。
?高質量基因組精細圖:標準基因組精細圖基礎上,通過三代測序、光學圖譜和遺傳圖譜,達到超高質量的基因組結果。
?泛基因組測序:針對同種或同屬內相似度較高的物種,進行多個基因組的測序組裝,用以研究近似物種間共有和特有的序列,解析種屬內遺傳資源的差異。
?重測序:是對已有參考基因組的物種進行個體或群體的基因組測序,利用高性能計算平臺和生物信息學方法,全基因組掃描變異位點(SNP、InDel、SV),40天內即可獲得生物遺傳特征,對動植物分子育種研究具有重大的指導意義。
?意義:基因組測序——測序的個體基因組信息,基因變異率——個體之間的差異
?應用領域:個體重測序、突變體檢測、多混池重測序、群體進化分析、BSA、遺傳圖譜構建
?連鎖不平衡,也叫等位基因關聯,指群體內不同座位等位基因之間的非隨機關聯, 包括兩個標記間或兩個基因間或一個基因與一個標記座位間的非隨機關聯。通過pair-wise算法計算得到的LD度(r2)來評估LD(連鎖不平衡)的水平。
?選擇分化分析:通過分析大量的比較基因組學數據集和大量的SNP集,我們可以確定負向和正向選擇如何以及在哪些地方影響群體變異。通過多態性分析可以進行群體選擇研究,群體選擇分析可以用于比較馴化物種和野生物種,從而尋找一些共同區域或者差異很大的區域。在人工選擇或自然選擇的過程中,這些區域可能與候選基因密切相關。
?selective sweep:是指由于某一位點或座位(locus)受到強選擇后,其周圍位點因受該位點牽連而發生基因多態性或雜合性降低的現象。
?群體遺傳多態性分析:構建群體進化樹、群體主成分分析、群體結構分析
?全基因組選擇分析:連鎖不平衡分析、選擇性清除分析
?全基因組關聯分析:單體型分析、關聯分析
?全基因組連鎖分析:遺傳圖譜構建、重組熱點分析
?SNP、indel:BWA和GATK CNV: FREEC 是: BreakDancer
?簡化基因組:降低基因組復雜性、減少重復序列比例、提高測序數據的利用率、降低測序成本、某些分析不需要全基因組重測序即可完成 。
?轉錄組廣義上指在特定環境或生理條件下的一個細胞、組織或生物體中存在的所有RNA的總和,包括mRNA、rRNA、tRNA及其它的非編碼RNA。
?轉錄組測序是對某一物種特定的RNA進行高通量測序,從結構水平和表達水平兩個層次上解析轉錄組表達變化對性狀差異的調控機制。
?科研中應用:不同品種轉錄組測序揭示性狀多樣性的原因、不同發育時期轉錄組測序揭示性狀動態變化的歷程、不同組織/器官轉錄組測序揭示組織/器官特異發育特征、突變型和野生型轉錄組測序揭示突變性狀產生的原因。
?核苷酸變異:組織特異性、時間特異性。基因表達水平:環境特異性、品種特異性
?常見的可變剪接可分為6種類型:外顯子跳躍,內含子保留,5‘端可變剪接,3'端可變剪接,最后一個外顯子可變剪接,第一個外顯子可變剪接。
?轉錄組:5G、雙端測序、Unigene庫構建、分子標記開發、基因結構分析、差異表達基因分析
?表達譜:有參考基因組或轉錄組信息、10M tag、單端測序、差異表達基因分析
?GWAS分析:全基因組范圍內尋找與重要性狀相關聯的遺傳變異;
?eQTL分析:將基因表達豐度作為性狀關聯控制基因表達的遺傳變異同時解析基因表達調控網絡。
?在生物體內,miRNA除了抑制mRNA的翻譯外,也會誘導mRNA被剪切降解。在植物中主要是通過與靶基因進行完全或近乎完全的配對導致mRNA的降解來進行調控,在動物體內以抑制基因翻譯居多,同時也存在部分對靶基因的剪切降解作用。
?基于轉錄組技術挖掘功能基因新策略:個體材料-比較轉錄組-發育調控、環境適應、免疫互作、表觀調控。自然群體-進化、GWAS-遺傳進化。遺傳群體-BSR、遺傳圖譜-基因定位
?降解組測序主要針對miRNA介導的剪切降解片段進行深度測序,從中篩選miRNA作用的靶基因,并結合生物信息學分析確定降解片段與miRNA的精確配對信息的測序方法。
?原理:植物體內絕大多數的miRNA是利用剪切作用調控靶基因的表達,且剪切常發生在miRNA與mRNA互補區域的第十位核苷酸上。靶基因經剪切產生二個片段,5’ 剪切片段和3’ 剪切片段。其中3’ 剪切片段,包含有自由的5’ 單磷酸和3’ polyA尾巴,可被RNA連接酶,連接產物可用于下游高通量測序;而含有5’ 帽子結構的完整基因,含有帽子結構的5’ 剪切片段或是其他缺少5’ 單磷酸基團的RNA是無法被RNA酶連接,因而無法進入下游的測序實驗。
?長鏈非編碼RNAs(long non-coding RNAs,lncRNAs)一般是指大于200 nt的RNA,位于細胞核內或胞漿中,不參與蛋白質編碼功能,以RNA形式在多種層面上(表觀遺傳調控、轉錄調控以及轉錄后調控等)調控基因的表達水平,在生命活動中具有重要作用。
?區分編碼RNA和非編碼RNA的工具: CPC :基于預測基因的開放閱讀框、PhyloCSF:基于物種間的保守性、CNCI:基于二聯密碼子頻率、Pfam:基于蛋白結構域分析
?目標序列捕獲測序,是將感興趣的基因組區域定制成特異性探針與基因組DNA進行雜交(固相或液相),將目標基因組區域的DNA片段進行富集后再利用第二代測序技術進行測序。這種新的方法與PCR方法相比,通量高,同時能節省大量的時間及成本。
?全基因組測序:優:整個基因組的全面查看、可檢測所有類型的突變、標準化的處理和分析適合所有腫瘤類型。缺:測序深度相對較低,會錯過部分低頻突變、海量數據分析相對困難
?外顯子組測序:優:經濟高效,僅僅對約2%的基因組測序、測序深度更高,利于低頻突變檢出
?檢測編碼區,數據有效率高,更容易分析。缺:將錯過部分非編碼區突變、對大片段結構變異的檢 測較差
?目標區域捕獲:優:經濟高效、結果容易解釋、對應癌癥相關基因,結果是可操作的。缺:將錯過大部分突變、需要事先了解目的基因背景、只能是一部分患者受益