https://www.zhihu.com/question/23566982
生物信息學是為生物學研究者提供分析工具的學科,滲透到生物學的幾乎每一個研究領域。而你要做的是編寫軟件,而不是學用別人的軟件。
十年前的生物信息
- 做一個 CLUSTALW 序列比對,
- 用 PHYLIP 算一個進化樹,
- 上 NCBI 做一個 BLAST,
最常用的東西:
- 1,你需要會用 Linux,會使用 bash
- 2,高于入門級的統(tǒng)計學知識,以及一門統(tǒng)計語言,比如 R
- 3,至少一門編程語言,一般來講 C++, Perl, Python, Java 這幾種中的一種。
- 4,對于你工作的領域,需要懂這方面的生物學知識,也需要知道目前人們在這個領域里都用什么其他軟件。
以上四點必不可少。
其他的知識則取決于你是什么領域。
- 比如如果你要研發(fā)高性能的序列比對軟件,則算法和并行計算的知識必不可少。——本人自己算法很渣,所以沒有把算啊列在以上必備的知識里。
- 如果要頻繁存取大量數(shù)據(jù),則懂得一種數(shù)據(jù)庫必不可少,比如MySQL。
遺傳學領域里,目前大部分的生物信息學研究集中在二代測序(High-throughput sequencing)數(shù)據(jù)的分析工具上。另外做二代基因測序的序列比對(Alignment),現(xiàn)在軟件多如牛毛,但最常用的基本還是 bowtie, bwa 等少數(shù)幾種。
這種數(shù)據(jù)和大規(guī)模運算一般只能在大型服務器上運行,毫無疑問的需要會 Linux 和 bash,以及一些分布式計算的基礎知識。
做生物信息的人主要是研究方法學,需要把自己的方法寫成軟件發(fā)表。用生物信息學工具的人則只是用別人的工具而已,發(fā)表的文章也就并不是生物信息學的文章,而是你自己領域里的文章,比如群體遺傳學。到現(xiàn)在生物的絕大多數(shù)領域都需要用其他人寫的軟件處理大量數(shù)據(jù),如果把所有這樣的文章都算在生物信息里面,那 80% 的生物學文章得都是生物信息學文章了。
作者:周杰
鏈接:https://www.zhihu.com/question/23566982/answer/25192621
來源:知乎
著作權歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權,非商業(yè)轉(zhuǎn)載請注明出處。
學習使用新軟件時,先粗略地把Manual、Readme、軟件涉及的文章(包括附件里的內(nèi)容,往往會提供可用的細節(jié))都過一遍,然后使用樣例數(shù)據(jù)跑跑看。遇到問題不要慌張,善用搜索工具進行檢索(英文),你能遇到的大部分別人都遇到過,看看別人的求助貼和討論內(nèi)容一般都能解決問題。搜索解決不了問題還可以考慮給作者寫郵件,注意清晰描述遇到的情況(描述問題本身就是理清思路的過程),寫郵件或者發(fā)帖問問題盡量具體、明確一點,同時注意提問的條理和內(nèi)容的可讀性。
作者:王理中
鏈接:https://www.zhihu.com/question/23566982/answer/25220599
來源:知乎
著作權歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權,非商業(yè)轉(zhuǎn)載請注明出處。
必學:1、計算機基礎(linux+perl+R 或者 python+matlab) 2、生信基礎知識(測序+數(shù)據(jù)庫+數(shù)據(jù)格式) 3、生信研究領域(全基因組,全轉(zhuǎn)錄組,全外顯子組,捕獲目標區(qū)域測序) 4、生信應用領域(腫瘤篩查,產(chǎn)前診斷,流行病學,個性化醫(yī)療)分而治之:一、計算機基礎,需要看三本書,一步步的學會學通,不需要刻意去找哪個書,一般linux是鳥哥私房菜,perl是小駱駝咯,R是R in action,但是看一本書只能入門,真正想成為菜鳥,必須每個要看五本書以上!我云盤里面有這基本上的高清打印版,大家可以去淘寶打印一下才幾十塊錢還包郵,對書比較講究的也可以買正版,也不過是一百多塊錢而已!二、生信基礎知識,測序方面,在百度文庫找十幾篇一代二代三代測序儀資料仔細研讀,然后去優(yōu)酷下載各大主流測序儀的動畫講解,再看看陳巍學基因的講解;數(shù)據(jù)庫先看看三大主流數(shù)據(jù)庫——NCBI,ENSEMBL,UCSC,還有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同樣也是百度文庫自己搜索資料,但是這次需要自己去官網(wǎng)一個個頁面點擊看,一個個翻譯成中文理解吃透;數(shù)據(jù)格式講起了就多了,這個主要是在項目流程中慢慢學,或者你有機會去上課,不然你看來也是立馬忘記的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等三、生信研究領域,各個領域主要是軟件繁多,合起來常用的估計有上百個軟件了,一般只有從業(yè)五六年以上的人才有可能把它們?nèi)坑眠^一遍,而且這也完全需要項目來訓練,而不能僅僅是看看軟件手冊,但是研究領域最重要的是背后的原理,需要看各大牛的綜述。a) 生信基礎軟件(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)b) snp-calling相關軟件(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)c) 基因組相關軟件(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)d) 轉(zhuǎn)錄組相關軟件(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)四、生信應用領域,講這一塊其實已經(jīng)脫離了生信菜鳥的解釋范圍了,主要是想說社會上為什么需要搞生信的人才,全是因為在腫瘤篩查,產(chǎn)前診斷,流行病學,個性化醫(yī)療等領域有所應用,可以造福人類?。。∵@方面政策不確定,產(chǎn)業(yè)不定型,所以也這絕對是藍海,但是也絕對不會有現(xiàn)成的資料直接培訓人才,我們必須關注各種微信公眾號,逛各種測序,醫(yī)學相關論壇,緊跟業(yè)界精英的腳本,同時追著大牛的文獻閱讀,如此這般才能保住菜鳥的身份!
作者:曾健明
鏈接:https://www.zhihu.com/question/23566982/answer/41832167
來源:知乎
著作權歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權,非商業(yè)轉(zhuǎn)載請注明出處。