經驗分享:大數據時代,如何讓數據成為資產

數據飛速增長的今天,生活在大數據的壓力下,從事大數據行業的你,該如何更好地自處?

今天小編給大家分享一篇經驗帖,希望能夠給你帶來幫助!

作者從從大數據開發的角度,到大數據治理的必要性,再到圖形化建模的暢想,最后在數據質量的把關,然后到大數據可視化的應用,總結他的所見所聞以及他的學習的成果,分享給大家。


大數據開發

大數據開發,有幾個階段:

1.數據采集【原始數據】

2.數據匯聚【經過清洗合并的可用數據】

3.數據轉換和映射【經過分類,提取的專項主題數據】

4.數據應用 【提供api 智能系統 ?應用系統等】

數據采集

數據采集有線上和線下兩種方式,線上一般通過爬蟲、通過抓取,或者通過已有應用系統的采集,在這個階段,我們可以做一個大數據采集平臺,依托自動爬蟲(使用python或者nodejs制作爬蟲軟件),ETL工具、或者自定義的抽取轉換引擎,從文件中、數據庫中、網頁中專項爬取數據,如果這一步通過自動化系統來做的話,可以很方便的管理所有的原始數據,并且從數據的開始對數據進行標簽采集,可以規范開發人員的工作。并且目標數據源可以更方便地管理。

數據采集的難點在于多數據源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地文件、excel統計文檔、甚至是doc文件。如何將他們規整的、有方案的整理進我們的大數據流程中也是必不可缺的一環。


數據匯聚

數據的匯聚是大數據流程最關鍵的一步,你可以在這里加上數據標準化,你也可以在這里做數據清洗,數據合并,還可以在這一步將數據存檔,將確認可用的數據經過可監控的流程進行整理歸類,這里產出的所有數據就是整個公司的數據資產了,到了一定的量就是一筆固定資產。

數據匯聚的難點在于如何標準化數據,例如表名標準化,表的標簽分類,表的用途,數據的量,是否有數據增量?,數據是否可用? 需要在業務上下很大的功夫,必要時還要引入智能化處理,例如根據內容訓練結果自動打標簽,自動分配推薦表名、表字段名等。還有如何從原始數據中導入數據等。

數據轉換和映射

經過數據匯聚的數據資產如何提供給具體的使用方使用?在這一步,主要就是考慮數據如何應用,如何將兩個?三個?數據表轉換成一張能夠提供服務的數據。然后定期更新增量。

經過前面的那幾步,在這一步難點并不太多了,如何轉換數據與如何清洗數據、標準數據無二,將兩個字段的值轉換成一個字段,或者根據多個可用表統計出一張圖表數據等等。?

數據應用

數據的應用方式很多,有對外的、有對內的,如果擁有了前期的大量數據資產,通過restful API提供給用戶?或者提供流式引擎 KAFKA 給應用消費? 或者直接組成專題數據,供自己的應用查詢?這里對數據資產的要求比較高,所以前期的工作做好了,這里的自由度很高。

大數據治理

大數據治理應該貫穿整個大數據開發流程,它有扮演著重要的角色,淺略的介紹幾點:

數據血緣

數據質量審查

全平臺監控

數據血緣

從數據血緣說起,數據血緣應該是大數據治理的入口,通過一張表,能夠清晰看見它的來龍去脈,字段的拆分,清洗過程,表的流轉,數據的量的變化,都應該從數據血緣出發,我個人認為,大數據治理整個的目標就是這個數據血緣,從數據血緣能夠有監控全局的能力。

數據血緣是依托于大數據開發過程的,它包圍著整個大數據開發過程,每一步開發的歷史,數據導入的歷史,都應該有相應的記錄,數據血緣在數據資產有一定規模時,基本必不可少。


數據質量審查

數據開發中,每一個模型(表)創建的結束,都應該有一個數據質量審查的過程,在體系大的環境中,還應該在關鍵步驟添加審批,例如在數據轉換和映射這一步,涉及到客戶的數據提供,應該建立一個完善的數據質量審查制度,幫助企業第一時間發現數據存在的問題,在數據發生問題時也能第一時間看到問題的所在,并從根源解決問題,而不是盲目的通過連接數據庫一遍一遍的查詢sql。

全平臺監控

監控呢,其實包含了很多的點,例如應用監控,數據監控,預警系統,工單系統等,對我們接管的每個數據源、數據表都需要做到實時監控,一旦發生殆機,或者發生停電,能夠第一時間電話或者短信通知到具體負責人,這里可以借鑒一些自動化運維平臺的經驗的,監控約等于運維,好的監控提供的數據資產的保護也是很重要的。

大數據可視化

大數據可視化不僅僅是圖表的展現,大數據可視化不僅僅是圖表的展現,大數據可視化不僅僅是圖表的展現,重要的事說三遍,大數據可視化歸類的數據開發中,有一部分屬于應用類,有一部分屬于開發類。

在開發中,大數據可視化扮演的是可視化操作的角色, 如何通過可視化的模式建立模型? 如何通過拖拉拽,或者立體操作來實現數據質量的可操作性? 畫兩個表格加幾個按鈕實現復雜的操作流程是不現實的。

在可視化應用中,更多的也有如何轉換數據,如何展示數據,圖表是其中的一部分,平時更多的工作還是對數據的分析,怎么樣更直觀的表達數據?這需要對數據有深刻的理解,對業務有深刻的理解,才能做出合適的可視化應用。

智能的可視化平臺

可視化是可以被再可視化的,例如superset,通過操作sql實現圖表,有一些產品甚至能做到根據數據的內容智能分類,推薦圖表類型,實時的進行可視化開發,這樣的功能才是可視化現有的發展方向,我們需要大量的可視化內容來對公司發生產出,例如服裝行業,銷售部門:進貨出貨,顏色搭配對用戶的影響,季節對選擇的影響 ? 生產部門:布料價格走勢? ?產能和效率的數據統計? ?等等,每一個部門都可以有一個數據大屏,可以通過平臺任意規劃自己的大屏,所有人每天能夠關注到自己的領域動向,這才是大數據可視化應用的具體意義。


總結:大數據開發的難點

大數據開發的難點主要是監控,怎么樣規劃開發人員的工作?開發人員隨隨便便采集了一堆垃圾數據,并且直連數據庫。 短期來看,這些問題比較小,可以矯正。 但是在資產的量不斷增加的時候,這就是一顆定時炸彈,隨時會引爆,然后引發一系列對數據資產的影響,例如數據混亂帶來的就是數據資產的價值下降,客戶信任度變低。

如何監控開發人員的開發流程?

答案只能是自動化平臺,只有自動化平臺能夠做到讓開發人員感到舒心的同時,接受新的事務,拋棄手動時代。

這就是前端開發工程師在大數據行業中所占有的優勢點,如何制作交互良好的可視化操作界面?如何將現有的工作流程、工作需求變成一個個的可視化操作界面? 可不可以使用智能化取代一些無腦的操作?

從一定意義上來說,大數據開發中,我個人認為前端開發工程師占據著更重要的位置,僅次于大數據開發工程師。至于后臺開發,系統開發是第三位的。好的交互至關重要,如何轉換數據,如何抽取數據,一定程度上,都是有先人踩過的坑,例如kettle,再例如kafka,pipeline ,解決方案眾多。關鍵是如何交互? 怎么樣變現為可視化界面? 這是一個重要的課題。

現有的各位朋友的側重點不同,認為前端的角色都是可有可無,我覺得是錯誤的,后臺的確很重要,但是后臺的解決方案多。 前端實際的地位更重要,但是基本無開源的解決方案,如果不夠重視前端開發, 面臨的問題就是交互很爛,界面爛,體驗差,導致開發人員的排斥,而可視化這塊的知識點眾多,對開發人員的素質要求更高。

OK,分享結束,小本本記滿了木有??

作者:張泰峰

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,494評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,283評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,953評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,714評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,186評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,410評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,940評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,776評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,976評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,210評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,654評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,958評論 2 373

推薦閱讀更多精彩內容