2006年,高中生物老師口中的一句話鋪就了我以后的職業軌跡。
……21世紀是生命科學的世紀,生命科學歷史上一一發展起來的分子生物學、基因組學、生物信息學就是生命科學發展的見證。哦,對了,生物信息學你們還沒聽過吧。簡單來說就是通過計算機科學和數據幫助生物學家從大量數據中篩選出可供檢測分析的小批量數據的一門學科……
-某高中生物老師
不知不覺,在生物信息圈混了10來年了,生物學也已經從“世紀學科”變成了候局長口中“學生物可惜了”的學科。
NIH的一張基因組測序價格與計算機屆鼎鼎大名的摩爾定律對比圖和最后更新于2016年5月的文章向大家展示了生命科學,尤其是基因組學在近15年來發展的速度之快。

這張圖在我看來最大的反應就是,天啊,這一下子便宜了這么多,數據量的暴增給IT和BI帶來了巨大的壓力。于是,大量IT企業涌入生物屆,生物信息學專家也一時成為了“香餑餑”。
一個BT跟IT提起技術棧,肯定會提到perl和R,這個時候你旁邊的IT肯定是懵的。
“perl不是黑客才用的嗎?R又是什么東西?”
“BI的世界你不懂!”
我不比較技術的好壞,但可以說說自己的經歷和看法。
IT技術在生命科學圈的應用可謂大放光彩。NCBI的大量產品和服務構建在穩健的IT技術架構上;高性能計算為成百上千的研究機構提供了海量數據處理的能力;AWS、阿里云等云計算廠商為眾多沒有IT設備的基因公司提供了數分鐘構建一個數據中心的能力(當然,票子要跟得上)……
IT技術的應用也帶來了數據處理方式的改變,舉幾個栗子:
-
當你要查一個rs號為
671
對應的SNP在基因組什么位置的時候,我們怎么做?- 你默默的打開瀏覽器,打開搜索網站,搜索
NCBI dbSNP
,打開該網站,在搜索框中輸入rs671
,打開第一條標記為人的記錄,好了,信息出來了,大概長這個樣子;
- 你默默的打開瀏覽器,打開搜索網站,搜索
- 你默默的用Excel打開早就準備好的從UCSC的FTP下載下來的txt文件,,,然后

- 你打開萬惡的終端,用鳥哥教你的命令行開始工作,20秒后結果出來了;
看到這里的位置和瀏覽器中的差別了嗎?呃,這個是另外一個"one-based / zero-based"的問題,回頭再說。
- 你默默的切回剛剛的命令行,鏈接了早早導入數據的數據庫,經過簡單的SQL語句,就可以瞬間找到相應信息;
需要說明的是,我在將UCSC數據導入到數據庫前對數據做了一些處理,所以微店看起來是和瀏覽器上查到的一致的,而不是源文件中原始數值。
-
對于HiSeq X測序儀的用戶,查看下機數據產量是再頻繁不過的事情,經過bcl2fastq程序識別堿基后怎么看每個Lane的產量?
- 你登陸服務器,打開堿基識別后的文件夾,下載
./Reports/html
文件夾,用瀏覽器打開了index.html
文件,大概長這個樣子;
- 你登陸服務器,打開堿基識別后的文件夾,下載
- 如果你是一個極客,討厭把東西下載到本地或者用
ssh -X ...
的形式打開瀏覽器看表格,你可以進入剛剛的堿基識別輸出文件夾,在Stats
文件夾里躺著一個DemultiplexingStats.xml
文件,這是標準化的文本統計文件,長這樣;
新版的bcl2fastq會生成一個Stats.json
文件,看起來更簡潔
- 既然你已經拿到這個統計文件了,用幾行JavaScript代碼后,8個Lane的數據產量就變成這樣了。
這次就分享兩個簡單的栗子,不是說明數字越大,方法越好,只是想說明同一個事情可以有更多的解決辦法。
身為生信,做好基本數據分析的同時,借用一些已經成熟的IT技術往往可以讓我們做事事半功倍,讓自己想展現的東西更加直觀。我們是理科生,但也有情懷,也有對大眾美的追求,不是嗎?
參考:
- 摩爾定律, https://en.wikipedia.org/wiki/Gordon_Moore#Moore.27s_law;
- NIH對2001-2015年測序價格變化的統計文章,https://www.genome.gov/sequencingcostsdata/;
- 本人最后一個圖使用的JavaScript作圖工具,HighCharts,https://www.highcharts.com。