作為一個BI,為什么我要做IT的事情

2006年,高中生物老師口中的一句話鋪就了我以后的職業軌跡。

……21世紀是生命科學的世紀,生命科學歷史上一一發展起來的分子生物學、基因組學、生物信息學就是生命科學發展的見證。哦,對了,生物信息學你們還沒聽過吧。簡單來說就是通過計算機科學和數據幫助生物學家從大量數據中篩選出可供檢測分析的小批量數據的一門學科……

-某高中生物老師

不知不覺,在生物信息圈混了10來年了,生物學也已經從“世紀學科”變成了候局長口中“學生物可惜了”的學科。

NIH的一張基因組測序價格與計算機屆鼎鼎大名的摩爾定律對比圖和最后更新于2016年5月的文章向大家展示了生命科學,尤其是基因組學在近15年來發展的速度之快。

2001-2015年單位基因組價格變化趨勢
2001-2015年單位基因組價格變化趨勢

這張圖在我看來最大的反應就是,天啊,這一下子便宜了這么多,數據量的暴增給IT和BI帶來了巨大的壓力。于是,大量IT企業涌入生物屆,生物信息學專家也一時成為了“香餑餑”。

一個BT跟IT提起技術棧,肯定會提到perl和R,這個時候你旁邊的IT肯定是懵的。
“perl不是黑客才用的嗎?R又是什么東西?”
“BI的世界你不懂!”

我不比較技術的好壞,但可以說說自己的經歷和看法。

IT技術在生命科學圈的應用可謂大放光彩。NCBI的大量產品和服務構建在穩健的IT技術架構上;高性能計算為成百上千的研究機構提供了海量數據處理的能力;AWS、阿里云等云計算廠商為眾多沒有IT設備的基因公司提供了數分鐘構建一個數據中心的能力(當然,票子要跟得上)……


IT技術的應用也帶來了數據處理方式的改變,舉幾個栗子:

  • 當你要查一個rs號為671對應的SNP在基因組什么位置的時候,我們怎么做?

    1. 你默默的打開瀏覽器,打開搜索網站,搜索NCBI dbSNP,打開該網站,在搜索框中輸入rs671,打開第一條標記為人的記錄,好了,信息出來了,大概長這個樣子;
dbSNP頁面
  1. 你默默的用Excel打開早就準備好的從UCSC的FTP下載下來的txt文件,,,然后
Excel已停止工作
Excel已停止工作
  1. 你打開萬惡的終端,用鳥哥教你的命令行開始工作,20秒后結果出來了;
通過標準Linux命令行查找SNP

看到這里的位置和瀏覽器中的差別了嗎?呃,這個是另外一個"one-based / zero-based"的問題,回頭再說。

  1. 你默默的切回剛剛的命令行,鏈接了早早導入數據的數據庫,經過簡單的SQL語句,就可以瞬間找到相應信息;
通過MySQL數據庫查詢SNP

需要說明的是,我在將UCSC數據導入到數據庫前對數據做了一些處理,所以微店看起來是和瀏覽器上查到的一致的,而不是源文件中原始數值。

  • 對于HiSeq X測序儀的用戶,查看下機數據產量是再頻繁不過的事情,經過bcl2fastq程序識別堿基后怎么看每個Lane的產量?

    1. 你登陸服務器,打開堿基識別后的文件夾,下載./Reports/html文件夾,用瀏覽器打開了index.html文件,大概長這個樣子;
一個流動槽的產量統計信息
  1. 如果你是一個極客,討厭把東西下載到本地或者用ssh -X ...的形式打開瀏覽器看表格,你可以進入剛剛的堿基識別輸出文件夾,在Stats文件夾里躺著一個DemultiplexingStats.xml文件,這是標準化的文本統計文件,長這樣;
XML統計文件樣式

新版的bcl2fastq會生成一個Stats.json文件,看起來更簡潔

JSOn統計文件樣式
  1. 既然你已經拿到這個統計文件了,用幾行JavaScript代碼后,8個Lane的數據產量就變成這樣了。
8個Lane的數據產量統計

這次就分享兩個簡單的栗子,不是說明數字越大,方法越好,只是想說明同一個事情可以有更多的解決辦法。

身為生信,做好基本數據分析的同時,借用一些已經成熟的IT技術往往可以讓我們做事事半功倍,讓自己想展現的東西更加直觀。我們是理科生,但也有情懷,也有對大眾美的追求,不是嗎?

參考:

  1. 摩爾定律, https://en.wikipedia.org/wiki/Gordon_Moore#Moore.27s_law
  2. NIH對2001-2015年測序價格變化的統計文章,https://www.genome.gov/sequencingcostsdata/
  3. 本人最后一個圖使用的JavaScript作圖工具,HighCharts,https://www.highcharts.com
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,963評論 6 542
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,348評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,083評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,706評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,442評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,802評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,795評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,983評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,542評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,287評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,486評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,030評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,710評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,116評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,412評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,224評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,462評論 2 378

推薦閱讀更多精彩內容