前言
自畢業(yè)以來,開發(fā)、運(yùn)維streamsets也差不多半年左右,對streamsets的使用也積累了一些經(jīng)驗(yàn),也踩了不少的坑,在此,為大家分享一下自己淺顯經(jīng)驗(yàn)。現(xiàn)階段,我們主要在Streamsets進(jìn)行實(shí)時(shí)數(shù)據(jù)同步、實(shí)時(shí)ETL、實(shí)時(shí)寬表等工作,使用Streamsets來實(shí)現(xiàn)實(shí)時(shí)寬表是非常簡單、舒服的。
在這里,我將從Streamsets入門(介紹數(shù)據(jù)怎么在Streamsets流通的)、實(shí)時(shí)數(shù)據(jù)同步、實(shí)時(shí)寬表等方面介紹我們的工作
Streamsets介紹
Streamsets是一款大數(shù)據(jù)實(shí)時(shí)采集和ETL工具,可以實(shí)現(xiàn)不寫一行代碼完成數(shù)據(jù)的采集和流轉(zhuǎn)。通過拖拽式的可視化界面,實(shí)現(xiàn)數(shù)據(jù)管道(Pipelines)的設(shè)計(jì)和定時(shí)任務(wù)調(diào)度。最大的特點(diǎn)有:1、可視化界面操作,可以直觀排查錯(cuò)誤;2、 內(nèi)置監(jiān)控,可是實(shí)時(shí)查看數(shù)據(jù)流傳輸?shù)幕拘畔⒑蛿?shù)據(jù)的質(zhì)量;3、強(qiáng)大的整合力,對現(xiàn)有常用組件全力支持。
對于Streamsets來說,最重要的概念就是數(shù)據(jù)源(Origins)、操作(Processors)、目的地(Destinations)、執(zhí)行器(Executor)。
具體的介紹,請參考:https://streamsets.com/documentation/datacollector/3.9.x/help/index.html
官方論壇:https://ask.streamsets.com/questions/
Streamsets安裝
整體來說,安裝Streamsets非常簡單
1、下載安裝包
下載鏈接:https://streamsets.com/products/dataops-platform/open-source/
這里,我用的是Streamsets-3.9.1(文件名:streamsets-datacollector-3.9.1.tar)
2、安裝
安裝前準(zhǔn)備:安裝jdk
系統(tǒng)環(huán)境:centos7
解壓:tar -zxvf streamsets-datacollector-3.9.1.tar
3、啟動(dòng)
我們先不改Streamsts參數(shù),直接啟動(dòng)
cd streamsets-datacollector-3.9.1/bin
前端啟動(dòng):./streamsets dc
后端啟動(dòng): nohup ./streamsets dc &
4、登錄
Streamsets默認(rèn)端口號(hào):18630
所以訪問鏈接為:http://host:18630 http://localhost:18630
密碼:admin/admin
實(shí)時(shí)數(shù)據(jù)同步管道,我們現(xiàn)在主要是將postgresql的數(shù)據(jù)同步到snappydata中。目前,我將實(shí)時(shí)數(shù)據(jù)分成了三部分(數(shù)據(jù)采集、數(shù)據(jù)過濾、操作數(shù)據(jù)庫),以項(xiàng)目為單位創(chuàng)建管道(一個(gè)項(xiàng)目一個(gè)管道)
這是我們現(xiàn)在在用的實(shí)時(shí)寬表(real-time wide table)管道,后續(xù)我將詳細(xì)介紹實(shí)時(shí)寬表的思路、實(shí)現(xiàn)過程