本次筆記分享主要參照 Y大寬和生信札記 的推文以及自己實(shí)際用過過程中的一些心得編寫!
一、大致思路
也可以參見:基因家族分析
二、具體操作
2.1參考序列準(zhǔn)備
a.可以以模式植物該基因家族的全部蛋白質(zhì)序列作為參考(如擬南芥),序列批量下載以擬南芥BZR基因家族為例
進(jìn)入TAIR官網(wǎng)——download——genes——gene families——gene- families-seq-updata.txt(右鍵將此鏈接保存即可獲得擬南芥所有基因家族成員的ID號(hào))
復(fù)制粘貼BZR任意一個(gè)基因(如:At2g35530)到search框,點(diǎn)擊search,進(jìn)入下一個(gè)頁面,點(diǎn)擊get all sequences,在彈出的框里輸入目的基因ID號(hào)即可獲得相應(yīng)的序列(Dataset:根據(jù)自己的需要選擇)
其他批量獲取序列的方法可以參見:如何在NCBI批量下載基因家族序列?
b.隱馬爾科夫模型下載(以WRKY基因家族為例)
進(jìn)入pfam官網(wǎng)——keyword search:WRKY-GO——點(diǎn)擊PF03106——Curation&model——Download即可下載相關(guān)文件
2.2候選基因的ID的獲取
可利用tbtools中的雙向blast或者simple HMM search程序獲得候選基因的ID。具體操作參考
TBtools基因家族分析詳細(xì)教程(1)和使用HMM進(jìn)行基因家族鑒定?無人不能
2.3基于保守結(jié)構(gòu)域進(jìn)一步篩選,具體參見Batch SMART 最強(qiáng)序列特征[結(jié)構(gòu)域]預(yù)測(cè)軟件
用過SMART? NCBI-CDD? Pfam(在線工具)還有TBtools的batch SMART以后,個(gè)人覺得TBtools的TBtools的batch SMART非常好用,強(qiáng)烈推薦。
2.4基因定位染色體
a.使用TBtools繪制
?????? 在第一個(gè)框里輸入目標(biāo)物gff3文件,第二個(gè)框里輸入鑒定出來的目標(biāo)基因家族的基因成員ID——start即可獲得
b.使用在線網(wǎng)站繪制:
網(wǎng)址:http://mg2c.iask.in/mg2c_v2.0/
使用方法參見:基因家族成員在染色體上的位置
染色體長(zhǎng)度信息查找方法:
2.5共線性分析
參見: 任何人!一鍵完成物種間的共線性分析與可視化和花舞lala:零基礎(chǔ)多物種間共線性分析
注意ctl文件的修改(即去掉不想展示的染色體)
如修改以后,TBtools運(yùn)行報(bào)錯(cuò)如下圖(文本出現(xiàn)""),只需用記事本打開修改過的ctl 文件——?jiǎng)h除 ""——保存即可。
本次只分享僅寫了對(duì)于我自己來說計(jì)較容易出錯(cuò)的地方。如有錯(cuò)誤的地方,歡迎指正!
TBtools——基因家族分析推薦看:生信札記? 和? Y大寬 的推文,講解非常詳細(xì)。如果想要對(duì)基因家族分析過程中涉及的專業(yè)名詞有一個(gè)大致的理解,推薦看:山東大學(xué)或者河南科技大學(xué)在中國(guó)慕課平臺(tái)開設(shè)的公開課《生物信息學(xué)》。