三種基因表達數據的獲得方法(基因表達,微陣列,探針,歸一化)

DNA微陣列基因表達數據分析

基因表達數據反映的是直接或間接測量得到的基因轉錄產物 mRNA 在細胞中的豐度,這些數據可以用于分析哪些基因的表達發生了改變,基因之間有何相關性,在不同條件下基因的活動是如何受影響的。它們在醫學臨床診斷、藥物療效判斷、揭示疾病發生機制等方面有重要的應用。檢測細胞中 mRNA 豐度的方法有 cDNA 微陣列、寡核苷酸芯片、基因表達系列分析( Serial analysis of gene expression , SAGE )、RT-PCR等。目前,高通量檢測基因組 mRNA 豐度的方法主要是 cDNA 微陣列、寡核苷酸芯片,它們的原理是相同的,即利用 4 種核苷酸之間兩兩配對互補的特性,使兩條在序列上互補的單核苷酸鏈形成雙鏈,這個過程被稱為雜交。基本技術路線是:制備芯片,在一個約 1cm 2 大小的玻璃片上,將稱為探針的 cDNA 或寡核苷酸片段固定在上面;從細胞或組織中提取 mRNA ,通過 RT-PCR 合成熒光標記的 cDNA ,與芯片雜交;用激光顯微鏡或熒光顯微鏡檢測雜交后的芯片,獲取熒光強度,分析并得到細胞中 mRNA 豐度的信息。

一、 cDNA 微陣列

cDNA微陣列熒光圖像

cDNA 微陣列是在 1995 年由斯坦福大學率先研制成功并應用于基因表達分析的。首先將細胞內的 mRNA 逆轉錄成 cDNA 并分離,然后將分離得到的所有或部分 cDNA (其長度通常大于 200bp )作為探針,用機器手按照陣列的形式點到玻璃片上。玻璃片上的每一個點只包含一種 cDNA 分子,這樣就制成了 cDNA 微陣列。固定在玻片上的 cDNA 探針可以通過測序得到序列或者其來源是已知的。在使用 cDNA 微陣列時,首先提取組織或細胞系中的 mRNA 樣本,逆轉錄成 cDNA 并用熒光素標記;然后把標記混合物加到 cDNA 微陣列上,與探針雜交,雜交過程完成后,清洗微陣列;最后用激光掃描儀掃描并獲取熒光圖像,對圖像進行分析,得到 cDNA 芯片上每一個點的熒光強度值。熒光強度值定量反映了樣本中存在的與探針互補的 mRNA 豐度,也就是反映了探針所對應基因的表達水平。

雜交檢測原理

在制造 cDNA 微陣列時,點樣點的大小是不能保證完全一樣的,點的排列也可能是不規則的,這意味著要比較不同微陣列圖像的熒光絕對強度是不合理的,因此通常使用雙色熒光系統來糾正點之間的差異。在制備樣本時,使用兩個樣本,一個稱為控制樣本( control sample )或對照樣本 (reference sample) ,通常用綠色熒光素( Cy3 )標記其 cDNA ,另一個為測量樣本,用紅色熒光素( Cy5 )標記其 cDNA 。這兩個樣本按照相同的實驗方案分別制備不同熒光素標記的 cDNA ,并按 1 : 1 的比例混合,然后與 cDNA 微陣列雜交,用不同波長的激光掃描雜交后微陣列,分別獲取熒光強度,并成像。來自兩個樣本的基因如果以相同水平表達則顯示黃色,而如果表達水平有差異,則圖像顯示紅色或綠色。因此, cDNA 微陣列的實驗數據反映了兩個樣本中基因的相對表達水平。由于 Cy3 和 Cy5 的標記效率不相等,以及存在系統噪聲等原因,通常需要對 cDNA 微陣列實驗中獲取的原始圖像數據進行歸一化。例如,用 Cy3 、 Cy5 兩種熒光素分別標記的一些基因的表達水平相等,那么這些點的實驗結果 Cy5/Cy3 熒光強度比率值(以下稱 Ratio 值)的期望值為 1 ,但由于得到的 Ratio 值往往不等于 1 ,這些實驗偏差可以通過歸一化來得到糾正。對微陣列進行歸一化的指導思想包括基于全局強度值調整、強度相關歸一化、玻片之間的對比歸一化等,歸一化方法包括總密度(假設兩個樣本中的總 RNA 是相等的)、線性回歸、 Ratio 統計、迭代 log(ratio) 平均值中心化等,與微陣列掃描系統配套的軟件可以完成歸一化工作。

cDNA 微陣列實驗得到的值反映了基因的相對表達水平,即測量樣本與對照樣本之間熒光信號強度的比率或者對數化的比率,這是一個無量綱的值,可用于比較一組實驗中的基因相對表達水平。如果對照樣本的信號非常低,那么這個比率就可能很大,可能主要是噪聲信號,因此它很可能是無意義的。這些數據往往看作是不確定的或異常點,在后續分析時要注意這些數據,根據需要確定是否保留以及如何糾正其值。

二、寡核苷酸芯片

又稱為基因芯片、 DNA 芯片。它是在玻璃片上按陣列固定寡核苷酸探針,這些探針是在片原位合成的。現有產品中應用最廣泛的是 Affymetrix 公司制造的 GENECHIP?芯片,它使用一種光掩模技術和傳統的 DNA 合成化學的組合以非常高的密度制造寡核苷酸陣列。例如, Affymetrix 公司的 Human Genome U133 芯片包含了 100 萬個不同的寡核苷酸探針,代表了 33000 個人類基因。寡核苷酸芯片主要用于 DNA 多態性檢測和基因表達分析,還可以用于微生物基因組的再測序。

寡核苷酸探針的長度通常為 20-25bp ,在檢測 mRNA 豐度時可能存在寡核苷酸之間的非特異性交叉雜交,這可能會掩蓋雜交信號;此外,對于特定的寡核苷酸,信號強度對于寡核苷酸的堿基組成比較敏感的。對于第一個問題, Affymetrix 公司的解決辦法是采用匹配 / 失配( PM/MM )探針對的方法,即在設計一個特異的寡核苷酸 ( 匹配 ) 時,同時設計一個非特異的寡核苷酸探針,該探針僅僅在中間位置有一個堿基替換(失配),這樣可以用 PM 與 MM 之間的差值作為信號強度。為了解決第二個問題,在設計探針時,對于每一個待檢測的 mRNA 包含多個寡核苷酸探針,例如設計 11-20 對探針來檢測一個轉錄本。

與 cDNA 微陣列不同的是,雜交實驗中與寡核苷酸芯片雜交的是單個樣本,而不是 cDNA 微陣列實驗中測量樣本與對照樣本的混合物。寡核苷酸芯片的檢測結果有兩種,一種用 P/A/M ( Present/Absent/Don't Know )表示,表示有 / 無 / 不確定,另一種用熒光信號強度值表示。 P/A/M 可以用來判斷樣本中有無特定基因的表達,這個結果對于部分實驗,特別是一些定性實驗是有意義的,例如判斷腫瘤與正常細胞的基因表達差異。當需要對幾個不同條件下的基因表達情況進行分析時,對基因表達的相對變化更感興趣,所以多采用熒光強度值。有時實驗結果中有負值,這是由于前景信號小于背景信號或者背景 / 陰性控制樣本的定義不正確造成的, Affymetrix 公司的芯片分析系統會將負值修改成某一固定值。

在分析多個實驗條件下的基因表達數據時,與 cDNA 微陣列數據一樣,也是一系列測量樣本與對照樣本之間的信號強度比率或比率的對數值。實驗得到的信號強度也是經過歸一化的數值,歸一化的方法很多,而且一般都包含在芯片掃描系統的圖像處理軟件中。

cDNA 微陣列或基因芯片在用于基因表達分析時的一個最大優點是高通量性,在一次芯片實驗中可以對成千上萬個基因的表達進行并行測量。由于實驗環節較多,雖然在設計芯片時可以通過添加陰性和陽性探針等手段來評價數據的質量,但是需要提醒的是,數據的可靠性仍然是對數據進行后續分析時必須考慮的一個問題。

三、基因表達數據的網絡資源

大量基于 DNA 微陣列實驗的基因表達數據是公開發布在 Internet 網上的,尤其是學術機構在發表論文時所用的實驗數據都可以免費提供給全世界的研究人員下載使用。作為學術論文的補充資料在網上發布的數據主要是文本文件或 Excel 格式的文件,這些數據往往都是經過歸一化處理后的 Ratio 值或 log 2 (Ratio) ,對于寡核苷酸芯片數據有的是 P/A/M 表示,有的是熒光強度值。因為這些數據文件沒有包含原始的實驗方案、實驗材料、原始掃描圖像、圖像處理方法和數據歸一化方法等信息,對于要比較或整合分析來自不同研究小組的基因表達數據是非常困難的。主要原因是 DNA 微陣列并不是在任何客觀的個體上測量基因表達水平,大多數測量值僅僅是基因表達的相對變化,而且使用的并不是一個標準化的對照樣本。同時,基因表達數據比基因組序列數據要復雜的多,這些數據僅僅在有具體的關于實驗條件的描述時才是有意義的,對于不同的細胞類型,在不同的條件下都有一套轉錄本。因此,基于 DNA 微陣列的基因表達數據存儲量是非常大的,對于具有 20000 個探針的微陣列實驗,以 10um 的分辨率掃描,產生 3 千萬個離散的數據點,如果以 tiff 文件貯存,將占用約 60Mb 的硬盤空間。

一方面由于基因表達數據量非常龐大,而且數據中蘊含著豐富的生物學知識,另一方面由于這些數據沒有注釋,迫切需要一種標準來描述和存貯DNA微陣列基因表達數據,同時建立公共的DNA微陣列數據倉庫。歐洲生物信息(bioinformation)學研究所( EBI )與德國腫瘤研究中心 (DKFZ) 在 1999 年成立了 MGED 討論組 (The Microarray Gene Expression Data) 。 MGED ( http://www.mged.org/ )是一個國際性的成員聯盟,參與人員包括生物學家、計算機研究人員、數據分析學家。它的目標是促進由功能基因組學(functional genomics)和蛋白組學研究產生的微陣列數據的共享。當前集中于建立微陣列數據注釋和交換的標準,推動微陣列數據庫建設和相關軟件來實現這些標準,促進高質量的、經過注釋的基因表達數據在生命科學領域的共享。該組織開發的微陣列數據標準稱為 MIAME(the minimum information about a microarray experiment) ,是對于解釋和驗證結果所必需的微陣列實驗的最小信息描述。 MIAME 不是微陣列實驗必須遵循的教條,而是一組指導方針,它將幫助微陣列數據庫和數據分析工具的開發。同時, MGED 組織開發了微陣列基因表達標記語言( MAGE-ML , Microarray Gene Expression - Markup Language ),它是一種語言,用來描述跟基于實驗的微陣列信息的通訊。 MAGE-ML 基于 XML ,可以描述微陣列設計、制造、實驗組織和實施信息、基因表達數據等。 MIMAE 標準和 MAGE-ML 語言受到了從事 DNA 微陣列開發和應用研究的科研人員和組織的廣泛關注。美國 NCBI 的 Gene Expression Omnibus (GEO) 、英國的 EBI 的 ArrayExpress 數據庫都采用了該標準,斯坦福微陣列數據庫( Stanford Microarray Database , SMD )也正在兼容該標準。

目前,收集、存貯微陣列基因表達數據的最有影響的數據庫和網站是 GEO 、 ArrayExpress 和 SMD 。

1.GEO( http://www.ncbi.nlm.nih.gov/geo )是由 NCBI 在 2000 年開發的一個基因表達和雜交微陣列數據倉庫,同時作為獲取來自不同生物體的基因表達數據的在線資源。到 2004 年 3 月,數據倉庫中包含內容有 605 個 Platform , 14391 個 Sample , 816 個 Serial 。 Platform 是關于物理反應物的信息,Sample是關于待檢測的樣本信息和使用單個Platform產生的數據。Series 是關于樣本集的信息,反映樣本間的相關性和組織。

2.ArrayExpress( http://www.ebi.ac.uk/arrayexpress/ ) 是基于基因表達數據的微陣列公共知識庫,目的是存儲被注釋的數據,當前包含多個基因表達數據集和與實驗相關的原始圖像集。 ArrayExpress 數據庫接受 MAGE-ML 格式的數據遞交或者通過 MIAMExpress 的基于 Web 界面注釋和遞交的數據。 ArrayExpress 提供一個簡單的基于 Web 的數據查詢界面,并直接與Expession Profiler 數據分析工具相連,可以進行表達數據聚類,和其它類型的 Web 數據挖掘,并將進一步開發多個實驗和數據庫間的交叉查詢。 ArrayExpress 數據庫中的數據將與所有由 EBI 維護的或在線的數據庫相聯接。

3.SMD( http://genome-www5.stanford.edu/ )是一個使用 Oracle 作為數據庫管理軟件的關系數據庫。 SMD 存儲微陣列實驗的原始數據、歸一化數據和對應的圖像文件。自從 2002 年 1 月 1 日起,到 2004 年 4 月已包括 85 篇學術論文,超過 3500 個雙色點樣 cDNA 微陣列的實驗數據,并且每年增加 1000 個微陣列實驗的數據。另外, SMD 提供數據獲取、分析和可視化的界面,目前包括層次聚類和自組織映射等方法,還將加入 k- 平均聚類、單值分解和丟失值歸納等方法。

除了以上 3 個綜合性的基因表達數據倉庫外,還有一些專門的基因表達數據庫,例如 YMD (Yale Microarray Database , http://info.med.yale.edu/ microarray/) 、 ArrayDB ( http://genome.nhgri.nih.gov/arraydb/ )、 BodyMap ( http://bodymap.ims.u-tokyo.ac.jp/ )、 ExpressDB( http://twod.med.harvard.edu/ExpressDB/ ) 、 HuGE Index(Human Gene Expression Index , http://www.hugeindex.org/welcome/index.html) 等,這些數據庫收集的數據往往具有物種特異性,使用比較方便。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,786評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,656評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,697評論 0 379
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,098評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,855評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,254評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,322評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,473評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,014評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,833評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,016評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,568評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,273評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,680評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,946評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,730評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,006評論 2 374

推薦閱讀更多精彩內容