按系統(tǒng)功能分,不同的數(shù)據(jù)平臺對應著不同的常用軟件。在大數(shù)據(jù)興盛的今天,欲進軍數(shù)據(jù)界的你,應該對此有更進一步的了解。以下,大圣眾包威客平臺(www.dashengzb.cn)將為你推介。
1.數(shù)據(jù)挖掘模塊
作為一個跨學科的計算機科學分支,數(shù)據(jù)挖掘是用人工智能、機器學習、統(tǒng)計學和數(shù)據(jù)庫的交叉方法在相對較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式的計算過程,屬于非傳統(tǒng)的數(shù)據(jù)處理。相對于傳統(tǒng)ETL數(shù)據(jù)處理,數(shù)據(jù)挖掘更側(cè)重于知識發(fā)現(xiàn),其計算和規(guī)則也更加復雜。
【現(xiàn)階段常用的數(shù)據(jù)挖掘軟件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R語言、RapidMiner、SAS、SPSS、Weka等。
2.ETL模塊
目前,對于傳統(tǒng)ETL,大部分ETL軟件都可以勝任;但是對于大數(shù)據(jù)下的ETL,ETL工具對其支持非常有限。
Informatica為大數(shù)據(jù)下的ETL開發(fā)推出InformaticaBigData版本,它將之前的Mapping翻譯為HQL腳本,從而在Hive引擎上執(zhí)行。IBM的DataStage則通過相應BalancedOptimizer實現(xiàn)Mapping到Netezza、Oracle和DB2等專用數(shù)據(jù)庫的腳本翻譯,以利用不同的更為強大的數(shù)據(jù)處理引擎。TalendETL則把Mapping翻譯為SparkSQL,從而利用Spark引擎對數(shù)據(jù)進行處理。
【現(xiàn)階段常用的ETL軟件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表現(xiàn)為通過拖拽和配置的方式可視化、免編碼地完成ETL工作;腳本包括標準AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表現(xiàn)為通過特定的語法進行編碼實現(xiàn)ETL工作。
3.調(diào)度模塊
調(diào)度模塊,可以對企業(yè)內(nèi)跨平臺和跨主機的軟硬件資源進行統(tǒng)一調(diào)度。這些資源包括ETL主機、數(shù)據(jù)交換主機、報表主機、數(shù)據(jù)庫主機、DQ主機、郵件服務器和打印機等。
【現(xiàn)階段常用的調(diào)度軟件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、成都塔斯克TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。這些調(diào)度軟件往往提供GUI和CLI的配置方式,但是在智能化配置方面支持極其有限。
4.數(shù)據(jù)交換模塊
數(shù)據(jù)交換模塊,包括數(shù)據(jù)導入和數(shù)據(jù)導出。數(shù)據(jù)導入包括文件日志接入、數(shù)據(jù)庫日志接入、關(guān)系型數(shù)據(jù)庫接入和應用程序接入等。
【現(xiàn)階段常用的數(shù)據(jù)交換軟件】文件日志接入可采用Flume等;數(shù)據(jù)庫日志接入則往往需要開發(fā)特定的插件來讀取MySQL、Oracle和SQLServer等的數(shù)據(jù)庫日志或變更表;關(guān)系型數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫接入則使用ApacheSqoop、大眾點評wormhole、TaobaoDataX等;應用程序接入則通過應用程序?qū)ν饨涌谶M行接入。
5.報表模塊
報表工具的學習成本和開發(fā)難度比起手工編寫頁面來說,無疑更低,而且,它的開發(fā)周期和項目風險也得到了有效的控制。
【現(xiàn)階段常用的報表軟件】
BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。這些報表軟件多數(shù)都提供了列表、交叉表、圖表、地圖和儀表板的能力。
6.監(jiān)控模塊
監(jiān)控模塊,可以對系統(tǒng)硬件(交換機、路由器和主機等的電力、通信、磁盤、內(nèi)存、CPU等)、系統(tǒng)軟件(Web服務器、中間件服務器、數(shù)據(jù)庫服務器和緩存服務器等的資源、連接數(shù)和負載等)和數(shù)據(jù)(數(shù)據(jù)的一致性、穩(wěn)定性和可靠性等)進行實時監(jiān)控,發(fā)現(xiàn)問題及時告警甚至按預設(shè)方案自動進行處理。
【現(xiàn)階段常用的監(jiān)控軟件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。
7.DQ模塊
DQ模塊,主要對數(shù)據(jù)質(zhì)量進行控制,包括源數(shù)據(jù)的質(zhì)量檢查、數(shù)據(jù)清洗、數(shù)據(jù)融合和數(shù)據(jù)監(jiān)控等,貫穿數(shù)據(jù)處理的整個生命周期。盡管DQ模塊非常重要,但是目前好些數(shù)據(jù)處理項目都沒有專門的DQ模塊,這些功能以腳本形式零散分布于不同的作業(yè)中。
【現(xiàn)階段常用的DQ軟件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。
8.資產(chǎn)權(quán)限模塊
資產(chǎn)權(quán)限模塊,能夠統(tǒng)一對一些無形資產(chǎn)(企業(yè)的各種數(shù)據(jù)庫表、視圖、ETL作業(yè)、報表、郵件等)進行權(quán)限管控,保障信息安全和共享。該模塊完整實現(xiàn)的工作量還是比較大的,多數(shù)企業(yè)都會借助不同軟件自帶的權(quán)限管理能力,形成分散的資產(chǎn)權(quán)限模塊。
【現(xiàn)階段常用的資產(chǎn)權(quán)限軟件】并沒有完全開箱即用的資產(chǎn)權(quán)限模塊。
想要縱橫大數(shù)據(jù)世界,傍身技能必不可少,善用工具能讓你百戰(zhàn)不殆!
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書,可添加個人微信號(dashenghuaer))