一、miRNA的一般研究策略
miRNA也稱微RNA、microRNA,是真核生物中廣泛存在的一種長度為21-23nt的RNA分子,可通過與mRNA的結合,抑制mRNA的轉錄,因此在基因表達調控、細胞周期、生物體發育時序等方面起重要作用。
1.?生物信息學預測靶基因
要對miRNA進行研究,首先需要采用生物信息學的方法預測miRNA的靶基因位點,即被miRNA基因沉默的作用部位。如TargetScan algorithm、PicTar algorithm、DIANA-microT algorithm、miRanda algorithm、PITA和rna22 algorithms。
2.?靶基因的預測結果確認
進行靶位點預測之后,接著是要通過miRNA pulldown方法,識別靶基因位點。其中,有以下三種常用的pull-down方法:
(1)生物素化的miRNA pull-down(biotinylated miRNA pull-down)。通過生物素標記的合成miRNA轉染細胞,孵育后裂解細胞,用鏈霉親和素包被磁珠吸附篩選miRNA及其作用的mRNA。
(2)標記的miRNA pull-down(labeled microRNA pull-down assay,LAMP),通過用地高辛(DIG)標記的pre-miRNA寡核苷酸與細胞提取物混合孵育,用抗地高辛的抗體做免疫共沉淀(IP),獲得被共沉淀的mRNA。
(3)核蛋白免疫共沉淀-RNA高通量測序(Ribonucleoprotein immunoprecipitation followed by microarray chip analysis,RIP-Chip,RIP-seq),通過用合成的miRNA轉染細胞,孵育后裂解細胞,用特異的抗AGO2抗體對RISC進行免疫共沉淀,對獲得的mRNA進行microarray分析。
3 .miRNA的直接功能確認
通過實驗方法驗證miRNA是否能特異結合靶mRNA并特異抑制其表達。
(1)3’-UTR reporter assay
通過在報告基因如熒光素酶CDS的下游3’-UTR區域插入待確認的目的基因,克隆到載體如psiCHECK-2上,載體轉染細胞,再用miRNA進行處理,如果目的基因上含有靶位點,則熒光素酶的轉錄受到抑制不發熒光。
(2)miRNA的上調與下調
通過人工合成miRNA模擬物(miRNA mimics)或miRNA抑制物(miRNA inhibitor),增強或抑制miRNA的抑制效果,并與對照相比。
(3)位點定向突變(site-directed mutagenesis)
首先,將待測基因反轉錄為cDNA,通過用致突變的引物對cDNA模板進行重疊PCR擴增;然后,用相關的酶(一般為Kinase-Ligase-DpnI)對cDNA模板進行消化,克隆到報告基因載體;最后,將構建好的克隆轉染至細胞,檢測報告基因的表達。若表達顯著下降,可表明靶位點定位準確。
4. miRNA的整體功能驗證
對miRNA的上調/下調,通過Western Blot或其他生物學通路分析實驗,探究miRNA最終是如何影響細胞、疾病等等情況。
5. miRNA的定量和定位
通過RT-qPCR、原位雜交(in situ hybridization)、microarray等實驗手段,確定miRNA的具體表達量及其所在位置,以明確補充其機理研究。
二、AGO2在miRNA研究中的應用
AGO蛋白在miRNA通路中發揮多種功能。它們通過產生ac-pre-miRNA,參與了miRNA裝配的過程,同時它們是RISC效應器蛋白,介導mRNA降解、去穩定作用或者轉錄抑制。另外,AGO2蛋白可以在轉錄后調控調節miRNA豐度,內源性Ago2的減少會降低成熟miRNA的表達和活性。Ago2的這個特殊功能是獨立于它的剪切功能及內切酶活性的。
1.?人類AGO2蛋白
盡管所有的Argonaute蛋白都具有Piwi結構域,但并非所有的Argonaute蛋白都具有剪切活性。研究表明,人體內4中AGO蛋白(EIF2C1/hAGO1,EIF2C2/hAGO2,EIF2C3/hAGO3,EIF2C4/hAGO4)中,只有EIF2C2/hAGO2具有剪切活性。進一步研究顯示,RNase H酶的活性位點包括一個天冬氨酸-天冬氨酸-谷氨酸/天冬氨酸肽鏈(Asp-Asp-Glu/Asp motif),正是這段肽鏈與Mg2+結合。人體AGO1及AGO4蛋白中的肽鏈都和這段保守的天冬氨酸-天冬氨酸-組氨酸肽鏈不同,而AGO3雖然擁有相同的保守肽鏈,在體外實驗中同樣未表現出剪切活性。體外實驗中,通過突變改變人體AGO2這段保守序列后,AGO2失去剪切活性。
為得到AGO2蛋白具有剪切功能的直接證據,Meister構建了EGFP標記的報告基因。將此報告基因轉染Hela細胞,篩選得到穩定表達的細胞株。向此細胞株中轉染與報告基因的3’-UTR互不配對的全長miR16。一段時間培養后,實驗組(轉染miR16)Hela細胞表達的綠色熒光明顯減弱,對照組(未轉染miR16)熒光無明顯變化,證實EGFP標記的此報告基因可被miR16抑制表達。選取實驗組細胞,分別敲除AGO1-4。與未敲除細胞相比,敲除AGO1/ AGO3/ AGO4組細胞熒光表達無明顯變化;敲除AGO2組細胞熒光表達明顯上調。證實在miRNA介導的對靶mRNA的降解過程中,只有AGO2具有剪切活性,能夠剪切mRNA。
2 .AGO2影響miRNA作用的發揮
(1)AGO2參與miRNA裝配過程
在細胞核中,RNA合成酶II或III產生Pri-miRNA轉錄本,接著Drosha-DGCR8復合物對pri-miRNA進行剪切,獲得的前體發夾結構,pre-miRNA,被Exportin-5-Ran-GTP從細胞核轉移到細胞質。RNA酶Dicer與雙鏈RNA結合蛋白TRBP的復合物剪切pre-miRNA?為它的成熟長度。成熟miRNA的功能鏈被Ago2裝配到RNA介導沉默復合物RISC上,它引導RISC,通過mRNA剪切、轉錄抑制或脫腺苷化對靶mRNA進行沉默,而信使鏈則被分解。
圖2 miRNA生產過程的“線性化”經典途徑
(2)AGO2的修飾調節AGO2的活性機制
在細胞應激條件下,人AGO2蛋白可以在Ser387殘基被p38 MAP激酶磷酸化有助于AGO2定位到處理器processing bodies上。P-bodies是非轉錄mRNA和與mRNA翻轉、轉錄抑制相關的多種酶系的累積場所,包括AGO2蛋白和miRNAs。
(3)RISC裝配復合物(RLC):Dicer、TRBP和PACT與AGO2的連接
RISC是miRNA通路的細胞質效應器,包括一個單鏈miRNA將它引導至其靶mRNA。細胞質miRNA的處理和RISC的裝配都是被RLC所介導。RLC是一個多蛋白復合物,包括RNase Dicer、雙鏈RNA結合蛋白復合物TRBP(Tar RNA binding protein)和PKR的蛋白激活物PACT,其核心組分為AGO2,介導RISC作用于mRNA靶位點。
Dicer和TRBP相互作用,而后被Ago2招募,形成三體復合物,結合被轉運的pre-miRNA組成RISC裝配復合物RLC。
(4)AGO2介導pre-miRNA的剪切:ac-pre-miRNA
由于miRNA的發夾莖環結構上序列互補程度非常高,在Dicer介導的序列剪切之前需要一個額外的內切核苷酸的剪切步驟:AGO2的剪切功能被激活,剪切發夾結構的3’?臂——預期為信使鏈的中間,得到一個帶缺口的發夾架構,產生AGO2-剪切的miRNA前體或稱為ac-pre-miRNA。Dicer處理這個前體和pre-miRNA的效率是一樣的。
3. AGO2的實驗應用
AGO2是RISC的核心組分,聯系著miRNA和它們的mRNA靶位點。因此,在合適的條件下對AGO2的免疫純化(IP)可以獲得相互結合的miRNA和mRNA,從而識別miRNA的靶位點。還可以進行免疫熒光,檢測三者復合物在細胞內的定位。
三、LncRNA的一般研究策略
(1)LncRNA篩選
通過lncRNA芯片或RNA測序等方法對多對疾病模型和對照樣本組織進行lncRNA表達譜分析;通過生物信息學的方法篩選出具有表達差異的lncRNA,構建共表達網絡,預測lncRNA的靶基因;通過PCR或Northern Blot技術對候選lncRNA驗證,確定其表達差異。
(2)LncRNA全長克隆
可以通過5'RACE獲取lncRNA 5'全長,3'RACE獲取lncRNA 3'全長,最終拿到完整的lncRNA序列。
(3)表達分析
細胞水平表達:在細胞水平進行檢測表達差異。
組織分布:檢測不同組織、不同階段表達特性。
表達水平動力學變化:比較不同處理條件下,如藥物處理、誘導處理下,表達水平差異。
(4)功能研究
功能獲得性研究:構建lncRNA過表達載體。
功能缺失性研究:可通過siRNA、shRNA、反義核酸等方法沉默lncRNA,干預?????? lncRNA后檢測其對疾病相關基因表達影響和對細胞表型如增值、凋亡、侵襲、轉移等的影響。
可通過RNA pull down、RNA-RIP、ChIRP-seq等方法檢測與lncRNA結合的DNA、RNA、蛋白質。
表達調控:將lncRNA表達與其他領域相結合,解釋lncRNA調控機理。
轉錄因子:研究lncRNA與轉錄因子的調控機制。
染色質重塑:lncRNA表觀調控。
ceRNA機制:研究lncRNA-miRNA-mRNA三者之間的調控機制。
2. LncRNA的一般研究實驗手段
?
(1)與蛋白質的相互作用
識別lncRNA的蛋白質伙伴,可以為它們的功能的機制和路徑提高線索。RIP技術,如chemical-cross-linked RIP、native RIP (nRIP)、UV-crosslinked immunoprecipitation (CLIP)使用抗體來pulldown核蛋白復合物,然后從中分離相關RNA用于分析。每個變體都有它各自的優勢和缺陷。nRIP提供交聯產物,而CLIP在避免交聯產物的重新組合的同時用于識別RNA與蛋白質相互作用位點。這些技術可以結合高通量測序,如RIP-Seq、HITS-CLIP/CLIP-Seq,來識別lncRNA相互作用的全部宿主蛋白質因子,盡管還需要技術手段的確認。
(2)與DNA的相互作用
有幾個實驗技術被用于識別lncRNA的基因組靶位點。以染色體免疫共沉淀(ChIP)和RIP技術的原理為基礎,使用染色體RNA免疫共沉淀(ChRIP)來識別與特殊染色體標簽相互作用的RNA。另一方面,chromatin oligo-affinity precipitation (ChOP)、chromatin isolation by RNA purification (ChIRP)、capture hybridization of RNA targets (CHART)使用標記的互補寡核苷酸來識別與目的RNA相互作用的DNA位點。
(3)結構特征
lncRNA可以形成特殊的二級和三級結構來執行它們的功能。通過selective 2’-hydroxyl acylation analyzed by primer extension (SHAPE)和in-line probing來獲得局部核苷酸柔性。SHAPE可用于高通量分析,如SHAPE-Seq,連接其它依賴于RNA酶消化的技術,如fragmentation sequencing (FragSeq)和parallel analysis of RNA structure (PARS)。
四、miRNA與lncRNA的生物信息學預測
圖1?生物信息學在miRNA研究中的應用
當開始研究一基因是否為一個miRNA調控的靶基因時,可以用不同的生物信息學計算方法來分析每個序列(如mRNA的3'-UTR區序列),這些計算方法采用不同的參數來預測一個給定的靶mRNA內具功能性miRNA結合位點的可能性。由于每種計算方法的有效性不同,下面3種計算方法應該被用來預測miRNA結合位點:miRanda、TargetScan和PicTar.這3種計算方法都允許研究者輸入一個基因符號,這些計算方法將計算此基因內所有預測的miRNA結合位點。此外,這些計算方法可測定一個給定的miRNA所有的靶mRNA.因為不同的計算方法會預測出不同的miRNA結合位點,所以同時使用多種計算方法進行預測非常必要。值得注意的是,盡管miRNA結合位點在不同物種間的保守性是各種不同計算方法的組成部分,但并不是一個功能性位點所必需的。由于不同計算方法預測的結果存在很大的差異,如何確定哪些預測的結合位點需要進一步的實驗驗證成為研究者要面臨的一個難題。作者認為至少這3種計算方法中的2種計算方法均預測到的miRNA結合位點,有必要進一步用實驗驗證。
因為很多經種子序列匹配預測的miRNA靶經體內驗證實驗證實并不是真的miRNA靶,為了起始一步減少預測到的抑制一給定的靶mRNA表達的miRNA的數量,進一步的程序分析是有必要的。結構特征控制著miRNA/mRNA間的相互作用的觀點已被越來越多的人所接受。例如,一個RNA分子的大部分結構是高度復雜性的,只有特定的單鏈區域允許miRNAs接近并與互補位點結合。因此,復雜的RNA二級結構可能阻止miRNA/mRNA的相互作用。最近有研究證實,絕大部分已證實的靶的一個共同特征是優先與基于熱動力學在RNA分子中容易接近且沒有復雜二級結構的3’-UTR區中的位點。由于RNA可接近性可能是靶識別的一個關鍵特征,所以有必要采用mFold軟件測定預測到的miRNA結合位點5’端和3’端各70個核苷酸的自由能,當其低于平均隨機自由能時提示此位點允許miRNA接近并結合[20].這些允許miRNA接近并結合起來的位點,有必要進一步用實驗進行驗證。
在不同物種中成熟miRNA均是從具有莖環狀二級結構的前體加工而來,具有較大的序列同源性。克隆到的miRNA序列通過檢索基因組數據庫找到在基因組中的位置,在和周圍基因組序列比較中發現他們同樣具有相似的前體結構,多位于編碼基因間或內含子反向重復區域。一些miRNA基因在進化上具有高度保守性,此為生物信息學篩選的基礎。該方法根據比較基因組學原理,并結合生物信息軟件在已測序基因組中進行搜索比對,根據同源性的高低再進行RNA二級結構預測,將符合條件的候選miRNA與已經通過試驗鑒定的miRNA分子進行比較分析,最終確定該物種miRNA的分步及數量。目前國際上較為普遍使用的兩個計算機分析工具是miRseeker和miRscan,前者已用于果蠅及昆蟲基因組候選基因的系統分析,后者則用于線蟲和脊椎動物候選基因的分析。這兩個工具已經成功鑒定出了大量的miRNA基因并通過了實驗證實。由于miRseeker和miRscan的高靈敏度,它們已用于人類miRNA基因的尋找。由于該方法只能用于已完成基因組測序的物種,而那些未完成測序的物種就無能為力,而且由于miRNA前體長度的可變性,故用計算機方法尋找新基因具有一定的遺漏性,所以目前大多數實驗室將計算機分析與實驗方法結合使用,使得miRNA的發現量成幾何級數增長。目前日益發展的微陣列技術也在篩選miRNA基因方面顯示了極大的潛力。
隨著疾病特異性的miRNAs不斷被鑒定,對感興趣的疾病通路中的新靶基因進行驗證可能催生新的治療策略。因此,能夠鑒定和驗證miRNA/mRNA靶配對具有極其重要的意義。盡管生物信息學方法和自由能分析并不完美,但可使作者能夠對推測的miRNA/mRNA靶配對進行鑒定。一旦生物信息學方法預測成功,可以通過以下4條標準驗證miRNA/mRNA靶配對的真實性。(1)miRNA/mRNA靶相互作用得到驗證。(2)miRNA/mRNA共表達。(3)給定miRNA對其蛋白表達有可預測的影響。即用此miRNA的類似物可減少靶基因表達水平,而用此miRNA特異性抑制劑可增加靶基因的表達水平。(4)miRNA介導靶基因表達的調控導致相應的生物學功能的改變。
2. LncRNA的生物信息學預測
對lncRNA進行鑒定時,采取的策略是收集不同類型的數據(包括polyA RNA sequencing、nonpolyA RNA sequencing、表觀遺傳信號值、編碼可能性、保守性和RNA結構等),并對其進行分析。例如CDS的RNA-seqpolyA的表達值比較高,而ncRNA的RNA-seqnon-polyA表達值比較高。通過對不同類型數據的整合,還可以進一步得到不同類型基因元素的網絡調控關系。
對lncRNA進行綜合分析的一般流程如下:(1)將基因組劃分成小的單位(bin),根據Gencode的注釋信息對每個bin進行注釋;(2)分別計算每個bin的特征值,這些特征值包括序列保守性、結構穩定性、RNA表達值、組蛋白修飾、轉錄因子結合等;(3)利用機器學習的模型,將lncRNA與其他基因類別區分開,并且對新的lncRNA進行預測。
有的時候我們的專業知識不足以完成分析和預測。尤其在面對高通量數據時,從中挖掘有用的信息尤為關鍵。這時可以用到機器學習(machinelearning)的方法,令機器自動分析數據,比如特征提取或是分類。機器學習應用在生物信息學主要有兩大分支,即監督學習(supervisedlearning)和非監督學習(unsupervisedlearning)。在監督學習問題中,每個數據擁有一個對應標簽,我們希望通過數據建立一個模型,根據數據預測標簽。傳統的監督學習方法包括線性判別分析(LDA)、決策樹(decisiontree)、最近鄰法(nearestneighbor)和神經網絡(neuralnetwork)。20世紀90年代后,誕生了一批很有影響力的工作,包括支持向量機(SVM)、Adaboosting和隨機森林(randomforest),相比于傳統的方法,上述方法更好地處理了過擬合(overfitting)的問題,從而在實際應用中有很好的預測效果。
LncRNA研究是基因組時代重要的科學前沿,因為它有可能揭示一個全新的由RNA介導的遺傳信息表達調控網絡,從不同于蛋白質編碼基因的角度來注釋和闡明基因組的結構與功能,并為人類的疾病研究和治療提供新的思路和方法。同時,新一代測序技術的發展也為鑒定lncRNA的計算機方法提供了強大的支持。以下是整理的長非編碼RNA(lncRNA,lincRNA)數據庫資源列表(按字母排序)。國內外長非編碼RNA的研究剛剛興起,希望這資源對國內的非編碼RNA的研究者有所幫助。
(1)?ChIPBase:提供長鏈非編碼RNA的表達圖譜和轉錄調控的全面鑒定和注釋。整合了高通量的RNA-seq鑒定的lncRNA及其表達圖譜和ChIP-Seq實驗技術鑒定的轉錄因子結合位點。
網站:http://deepbase.sysu.edu.cn/chipbase/
更新:2012年11月
(2)LNCipedia:對人類的長鏈非編碼RNA的序列和結構全面的注釋。
更新:2012年7月
(3)lncRNAdb:提供有生物學功能的長鏈非編碼RNA的全面注釋。這是長鏈非編碼RNA研究領域的大牛John mattick實驗室構建的網站。
更新:2011年7月
(4)LncRNADisease:提供了文獻報道的疾病相關的長鏈非編碼RNA的注釋。
網站:http://cmbi.bjmu.edu.cn/lncrnadisease
更新:2012年7月
(5)NONCODE:提供對長鏈非編碼RNA的全面注釋,包括表達和該團隊開發的ncFANs計算機軟件預測的lncRNA功能。這是非編碼RNA研究的知名數據庫,已經更新到第三版。
更新:2012年1月
(6)NRED:?提供人和小鼠的長鏈非編碼RNA在芯片數據的表達信息。這也是John mattick實驗室構建的網站。
網站:http://jsm-research.imb.uq.edu.au/nred/
更新:?2009年