寫在前面
物種進化與基因進化,兩者總是生物學研究的關注點之一。物種進化的基礎,應是基因層面的演化。而基因進化的基礎更多的來源于基因復制。常見的基因復制包括:
- 全基因組復制,WGD
- 大片段復制,Segmental Duplication
- 串聯復制,Tandem Duplication
- 轉座復制,Translocation Duplication
- ....
無論是開展大規模的數據分析,或者是常見的某個物種新基因,基因新功能,更或者性狀的可能獲得原因分析,如果可以從物種演化的角度來探討相應基因的來源,那么可以使研究有多方面的提升:
- 證據更為可靠
- 故事更為完整:只對當前數據分析,我們只能知道是什么?更或者為什么?但是有時候我們可能還想知道去哪里,更或者更常見的,從哪里來?
近期,課題組的師弟在做一些類似的分析。大體他做了這么一張圖
我大概知道這個圖可能來源于比較基因組大牛唐海寶老師的JCVI工具集。喊師弟調整這個圖的一些部分時,我順便問了一句,
后面我就沒怎么管這個事情了。不過過了20多小時之后,發現這個問題調整的解決速度可能是個問題。昨晚吃完晚飯,我掐指一算,一周沒寫代碼....要退化了。于是我原本是計劃用最多兩個小時的時間寫完的,沒想到從18點寫到22點....
不過我還是得到了一個新的工具,對于這個功能,我加入了自己的思考 [純粹的功能復制對我來說,似乎沒有什么吸引力,也沒必要]:
- 靈活地按照用戶的需求,可以是輸入一個區間【比如我主要做小RNA的,不會有編碼基因】,也可以是輸入區間的起始編碼基因和終止編碼基因
- 自動層級化解析可能的基因區塊,并可視化,這個一種樹狀圖展開,第一個物種是一個區間,第二個物種可能是N個區間,第三個物種則可能是M個區間(取決于第二個物種對上多少個第三個物種的區間啊)
- 可以不依賴于共線性分析,是的,如果區間依賴于共線性分析,那么必要受到使用算法的限制。很多時候,算法總是存在局限的。當然,共線性分析結果可以讓你在最短的時間定為到可能的結果。
- .... 可交互,對于我來說,不可交互的圖形更適合展示而不適合分析。可交互的圖形意味著可快速調整并直接分析。
- ....
基于這些考慮,得到了下面這個新的功能
Evolutionary Conserved Blocks Finder
具體的使用與輸入:
- 代表第一個物種某個區間的文本,如:Chr1#2142423#4345533,或 ATG01G1231#ATG01G2231
- 不同物種簡化后的基因信息文件,格式為:Chr1\tGeneID\tStartPos\tEndPos\t[+-],即包括了基因所在位置和鏈的信息,注意,需要有意識地按照先后順序擺放物種的基因位置信息
- 基因對信息,格式為:GeneID\tGeneID
使用注意:不同物種的染色體ID和基因ID都不能出現重復【建議對所有ID加上物種名】。
具體的使用方法如上圖,可以看到,不僅僅是一個可視化工具,還是一個可視化實時分析工具:
- 自動尋路
- 隨意調整基因區塊
- 基因區塊反向
- 鼠標懸停展示基因ID
- 其實可以直接右鍵刪除一些不感興趣的Panel
6....
寫在后面
Emmm.... 正在考慮整理TBtools,然后盡快發表好了...不然似乎就要浪費300個Citations了?歡迎各位在評論區留下可能可以用于文章撰寫的方向,比如...TBtools到底有啥亮點?值得去發表。