5. 文本接口文件的壓縮問題

2.4 文本接口文件的壓縮問題

壓縮對文件存儲來說是十分有好處的,尤其對BI行業數據來說,數據文件存在著大量的空格、空值或像編碼那樣高度類同的值,已經流行多年的壓縮算法都可以大大的縮小文件的體積,下面的例子就是對接口M05027進行壓縮后的情況,可以看到即使在使用了gzip的—fast選項的情況下,壓縮率也可以達到接近90%。
etl@smdw:/backup/etl_data/data_input/data_097> gzip -l M05027*
compressed uncompressed ratio uncompressed_name
145826986 1415320527 89.7% M0502720120401010001.AVL
145535887 1418224895 89.7% M0502720120401010002.AVL
144824738 1417017114 89.8% M0502720120401010003.AVL
144975622 1417011013 89.8% M0502720120401010004.AVL
93578173 911604460 89.7% M0502720120401010005.AVL
153934971 1421769063 89.2% M0502720120401020001.AVL
154698176 1423946348 89.1% M0502720120401020002.AVL
154830925 1424391491 89.1% M0502720120401020003.AVL
68355961 627877947 89.1% M0502720120401020004.AVL
153204386 1423785446 89.2% M0502720120401030001.AVL
153521463 1425381522 89.2% M0502720120401030002.AVL
107293560 995988428 89.2% M0502720120401030003.AVL
152169932 1422314883 89.3% M0502720120401040001.AVL
152432192 1423927651 89.3% M0502720120401040002.AVL
135588314 1269189574 89.3% M0502720120401040003.AVL
2060771286 19437750362 89.4% (totals)
etl@smdw:/backup/etl_data/data_input/data_097>
M05027這個接口文件是BSS側經過先分包后傳輸給我們的(壓縮是我們自己做的):
etl@smdw:/backup/etl_data/data_input/data_097 > ls -l M05027.gz
-rw-r--r-- 1 etl gpadmin 145826986 2012-05-28 22:12 M0502720120401010001.AVL.gz
-rw-r--r-- 1 etl gpadmin 145535887 2012-05-28 22:12 M0502720120401010002.AVL.gz
-rw-r--r-- 1 etl gpadmin 144824738 2012-05-28 22:13 M0502720120401010003.AVL.gz
-rw-r--r-- 1 etl gpadmin 144975622 2012-05-28 22:13 M0502720120401010004.AVL.gz
-rw-r--r-- 1 etl gpadmin 93578173 2012-05-28 22:13 M0502720120401010005.AVL.gz
-rw-r--r-- 1 etl gpadmin 153934971 2012-05-28 22:40 M0502720120401020001.AVL.gz
-rw-r--r-- 1 etl gpadmin 154698176 2012-05-28 22:41 M0502720120401020002.AVL.gz
-rw-r--r-- 1 etl gpadmin 154830925 2012-05-28 22:41 M0502720120401020003.AVL.gz
-rw-r--r-- 1 etl gpadmin 68355961 2012-05-28 22:41 M0502720120401020004.AVL.gz
-rw-r--r-- 1 etl gpadmin 153204386 2012-05-28 23:05 M0502720120401030001.AVL.gz
-rw-r--r-- 1 etl gpadmin 153521463 2012-05-28 23:05 M0502720120401030002.AVL.gz
-rw-r--r-- 1 etl gpadmin 107293560 2012-05-28 23:05 M0502720120401030003.AVL.gz
-rw-r--r-- 1 etl gpadmin 152169932 2012-05-28 23:29 M0502720120401040001.AVL.gz
-rw-r--r-- 1 etl gpadmin 152432192 2012-05-28 23:30 M0502720120401040002.AVL.gz
-rw-r--r-- 1 etl gpadmin 135588314 2012-05-28 23:30 M0502720120401040003.AVL.gz
etl@smdw:/backup/etl_data/data_input/data_097 >
對于gz文件GP是可以直接讀取的,
例如使用可讀外部表的時候指定LOCATION為:
LOCATION ('gpfdist://smdw-1:9091/ M05027
.AVL.gz')
Gpfdist內部有專門的算法來讀取gz壓縮文件,速度只是略低于未壓縮的情況;同時gpfdist也能讀取bz2類型的壓縮文件,但速度要比gz的要更慢一些;但是bz2壓縮比率更高,更加利于網路傳輸以及磁盤上的大量存儲。
要注意的是:不論是gzip還是bzip2,它們在壓縮的過程中都要消耗令人心痛的硬件資源和最寶貴的時間資源。所以無數人常常哀嘆:文件是否要壓縮這個問題確實是一個問題啊。
如果有足夠強大的主機或集群,壓縮問題也可能不是個問題?,F在的云計算就很流行把文件壓縮到云里。
現在有一種壓縮叫LZO,根據一些使用過的人介紹,它的壓縮比沒有gzip和bzip2那么高,但它的壓縮速度非??欤且环N壓縮速度快得讓人流淚的東西!目前HADOOP里面是可以直接應用的,不知道GP會不會在新的版本中加入這個應用,哎,它快得讓人流淚啊……

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,362評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,577評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,486評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,852評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,600評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,944評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,944評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,108評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,652評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,385評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,616評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,111評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,798評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,205評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,537評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,334評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,570評論 2 379

推薦閱讀更多精彩內容