序言
這個注定是個長期更新的文章,也算是個自己的一個總結和目錄吧,雖然用的多的庫基本不需要繼續重新閱讀。
生信這個領域也是十分的巨大,所以其實標題也是過于巨大了,接下來肯定還會繼續分標題進行描述。
通用,對于腳本
- ipython 最基礎的用的最多的一個比較好的IDE
- collections.Counter 計數的快速方法
- collections.defaultdict 創建具有初始值的字典的magic method
- threading 多線程的實現,其實很簡單,不要害怕,由于生信里有很多調用命令行的語句,都是時間久但是占用資源不多的,用多線程可以迅速完成任務。
- luigi 流程管理,生信中很多pipelines,如果需要實現,必需有個流程管理的,做好接口,基本上以后都可以無憂。
- subprocess 執行命令行里語句的好模塊,當然也可以用os.system
- pandas 數據處理必不可少的模塊
- plotly/seaborn/matplotlib 數據可視化模塊,順序基本是我現在的優先級選擇,plotly的好處希望大家自己去感受。有空的話我也希望分享一下我現在用plotly的一些體驗和心得。
- glob 正則的枚舉文件的方法,適用于批量處理大量的數據
- argparse 將python腳本制作成可執行腳本后處理命令行參數的庫
- re 正則匹配的庫,不管是規整文件還是批處理都有用
基因組方面
- Biopython 一個很老很臃腫的模塊,解析生信相關的數據格式時會比較方便,但是因為過于老舊臃腫,很多時候需要自己做出一部分的修改。
- networkx 構建圖的一個較好的庫,有時需要把一個相關矩陣作為鄰接矩陣進行轉化,并將其轉化為一個圖,這樣更有利于下一步的設計和思考
- pysam 處理sam文件更好的一個模塊
微生物組方面
- qiime 現行分析16s數據較為通用的方法
轉錄組方面
- htseq count
發現后兩個組的內容真的不多,大多數用到python的時候都是用的通用包,其中只能用于某些方面的還是真的很少,而且大多數時候自己寫函數更多一點,先這樣吧。