隨著hadoop等技術門檻降低,眾多企業已經步入大數據的時代,而且也讓企業從中獲得收益。但是,大數據的使用并不是一勞永逸,簡簡單單便可提供準確的數據決策,更重要的是企業在使用hadoop平臺之時,需懂得如何正確管理大數據,保證大數據系統穩定性。所以,我們使用Hadoop環境時,必須不斷優化運行,才能滿足企業實際需求,滿足用戶期望。因此,我們大圣眾包(www.dashengzb.cn)小編整理了三方面的實踐,可以幫助企業提高大數據性能應用。
1、工作量分配管理
Hadoop系統、大數據系統就為了提高工作效率、得出更精準的數據,使用新部署的大數據應用應及時與企業原有的應用結合,淘汰落后,保留精華,正確的分配與設置,可以很好地管理工作量,讓管理者可以最大化利用,這樣可以具備更好適應新需求的能力。比如,Hadoop集群一般按照供應商提供的指導而部署的,但企業也應當根據自己的實際工作量重新配置,可以將Hadoop集群維持在適當范圍,也提高了應對不斷變化的業務需求的適應能力。
2、數據有效性及可用性
一般而言,企業的數據常常存放于hadoop平臺之中,而數據的重要性不言而喻,數據保存和數據可用性便成為任何一個企業的重點。但是為了確保數據更安全,我們也要做出些備份措施,保證hadoop數據的安全,另外我們在使用hadoop搭建時,需要計劃好一個可用性的策略,確保生產流程的各種風險。下面幾點可以讓數據防丟失或損壞。
(1)“一式三份”保存數據。雖然hadoop本身的容錯性和數據局部性處理功能不錯,但在同一個地方放全部數據,并不是萬全的,因此,避免出現問題,管理者應該做到每日更新備份一次,并且保存在其他數據中心,最好“一式三份”,這樣可以保護信息數據,以免遭到天災人禍。
(2)使用NameNode備份。隨著生產系統越發龐大,備份數據和NameNode的任務就越來越重要。NameNode在Hadoop分布式文件系統(HDFS)的特定目錄中存儲數據在集群的保存位置。
3、豐富的實戰經驗
技術性的東西,工具的使用都有個流程、使用操作文檔,這些都是最基本也是最簡單的,但真正挑戰更需要豐富的實戰經驗。
作為大數據平臺管理人員,首先需要懂得大數據開源平臺的技能技術,可以簡單快速處理問題;其次,需要堅實的技術背景或者技術團隊,懂得Hadoop應用開發的詳細知識、強大的Linux技能,應對各種問題,優化新功能等;最后,應及時更新知識,跟進最新技術知識,關注或者參加官方的培訓,因為很多工具的修復及使用是管理人員無法解決的。
Hadoop系統的使用應該從滿足業務需求、保證數據價值的角度出發,管理人員保證工作量,合理優化安排;樹立數據穩定性及數據保存的觀念,減少信息丟失、出錯等風險,通過實踐一步步優化,讓自己的系統更好服務于企業。
原文地址:http://www.dashengzb.cn/articles/a-171.html?
(更多大數據與商業智能領域干貨、兼職機會及行業資源分享等請關注大圣眾包平臺,或添加大圣花花個人微信號(dashenghuaer),拉你入bigdata&BI交流群330648564。)