先是在網上找到一堆資料,同時配合馬哥的視頻在理解這個語言。
參考學習資料:Python 入門指南中文版
這個語言的重要性,不用我來強調了,反正現在要用到,那就只有學習了,好在前面學習了R,和linux基礎的知識,現在學習Python感覺并沒有太難,總的來講Python就是綜合了R和Linux的一些優點,比較人性化的讓人和計算機溝通的一種工具。Python也是有很多擴展包的支持,跟R特別像,還有函數,變量等等很多都是類似的。
在菜鳥團的推送也有學習目錄生信分析方向如何系統入門python3(2019持續更新)
第一步 安裝編碼解釋器PyCharm
非專業選手,選擇下載python https://www.python.org/downloads/中的Community社區版本。
這個PyCharm基本上就跟RStudio差不多的一個軟件,可以新建一個腳本,寫代碼一行行調試,調用各種包及相應的函數。整個操作過程基本上和RStudio差不多。
估計單純的R和終端的Python shell差不多。因為一直用RStudio不太清楚。
安裝教程:https://www.jetbrains.com/help/pycharm/installation-guide.html
第一次安裝使用點擊最下面的Run PyCharm for the first time.
安裝過程中如有必要下載相應的插件,就在上面那個官方網站下載即可。
完整的中文教程及使用原則如下:
三劍客 PyCharm安裝測試
第二步 使用PyCharm創建一個任務進程
創建和管理Projects
基本上和創建一個.Rproj
過程一樣創建一個.idea
一個虛擬內存環境,然后在創建一個腳本.py
進行腳本編輯,基本上也是和.R
的創建過程一樣。所以原則應該也是差不多的,每個任務創建一個目錄然后所有的東西都放在一起好管理。
認識Python包
常用的來處理生物信息學的包比較少,不像R的bioconductor那么好有獨立的管理工具。
但是目前前輩們已經總結了一些好用的包:
強烈建議參考簡書作者白墨石的推送:【如何快速自學生物信息學】
Biopython 包
一般生信分析腳本的工具集。包括核酸序列處理,NCBI,UniProt數據庫操作等其他常用的生信工具。
中文教程:https://biopython-cn.readthedocs.io/zh_CN/latest
英文教程:http://biopython.org/DIST/docs/tutorial/Tutorial.html
GitHub:https://github.com/biopython/biopython
pandas 包
用于分析結構化數據的python包,包括對數據去空值,統計值計算,添加,刪除,插入,修改,提取等等操作。由于底層基于C,所以可以處理大型文件而且具有很快的分析速度。
英文教程:https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
Matlibplot 包
其實就是在python環境中的MATLAB (科學制圖里大神級的軟件),而且和它語法結構和用法大致相同。
相當于R里面的ggplot2,只是一個運行與R環境一個是Python環境里的可視化工具包,這兩款看個人喜好來學習一個,另一個了解就好。
英文教程:https://matplotlib.org/
作者:白墨石
鏈接:http://www.lxweimin.com/p/367b2a14f046
他的推送里面除了這個還有很多其他有用的資料。
我學習Python的目的只是為了能讀懂代碼,聽說掌握了規律,基本上就能讀懂。這點比較吸引我,我自己是不會去做編程的。但是要用到這個工具首先得認識,知道怎么用。所有學習說明書還是很有幫助的。
下面是白先生的Python生信分析系列先收藏了,方便后面學習。
生物信息中的Python 01 | 從零開始處理基因序列
生物信息中的Python 02 | 用biopython解析序列
生物信息中的Python 03 | 自動化操作NCBI
生物信息中的Python 04 | 批量下載基因與文獻
然后還有菜鳥團的作者 大土豆力 的精彩推送:
十分鐘入門潘大師(Pandas)
圖解NumPy包一文就夠了
NumPy正確食用指南
千萬千萬不要犯松鼠癥,一個勁的收藏都不看!!!!
最后友情宣傳生信技能樹
全國巡講:R基礎,Linux基礎和RNA-seq實戰演練 : 預告:12月28-30長沙站