學習——入門知識記錄1

目前基因測序工作中主要存在三個問題:

question1:精確控制問題,其中主要是質量控制問題。

是由于目前基因測序中存在很多種算法,但是不同的算法都會產生不同的結果,面對這樣的問題我們該如何選擇成為一個棘手的問題。

(目前要做的是設計指控模型,設計投票機制,如果設計成為接下來研究可突破的點,在此過程中要抓住兩個方面的重點:①數據特征②算法特征)

question2:輸入性數據質量問題。

主要是指輸入數據對輸出數據的影響

question3:輸出性數據質量問題

主要指在測序輸出時,會有相當多的參數,那么如何調控和選擇這些參數也是一個值得研究的問題。

學習的整體思路:

首先生物信息學分為幾大部分:蛋白組學,基因組學,轉錄組學,代謝組學等

我們主要接觸的是基因組信息學,以及部分的轉錄組學(接觸極少)

目前我們要看的知識主要是:

①第二代基因組測序技術的數據特點(原理大概了解即可)

②對輸出數據的處理:首先得到下機數據fastq(準確度達99.99%)——>通過對比原理——>bam格式的對比數據

(其中對比過程是我們接下來工作的重點之一,如何對比,使用什么軟件,軟件參數如何設定都是需要解決的問題,例如給出fastq數據,我們如何進行統計,以及參數的配置等問題;

目前使用較多的對比軟件是:BWA:存在問題①讀段長度為200以內,不適用于第三代基因測序技術產生的數據;②參數相當多,且參數有人種偏好,偏好白種人,對黃種人和黑種人的準確度較低。)

——>變異分析工具(例如gatk)——>變異數據——>標準數據——>表達驗證數據——>上臨床

其他相關知識:

①基因數據庫主要有三個:Genebank(美國) UCSC:https://genome.ucsc.edu/;EMBL(歐洲);DDBJ(日本)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容