//
hive - 有沒(méi)有好用的大數(shù)據(jù)ETL工具 - SegmentFault
https://segmentfault.com/q/1010000002701693
目前業(yè)界有沒(méi)有好用的etl工具?用于數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的。
1、hadoop的oozie和azkaban用了下感覺(jué)更適合小型任務(wù)的,但在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中感覺(jué)會(huì)十分麻煩。
2、ETL Automation、kettle等適合于oracle等,不太適合hadoop等。
3、自己開(kāi)發(fā)ETL了,有些互聯(lián)網(wǎng)公司就是這么干的。
你是準(zhǔn)備ETL之后把數(shù)據(jù)放進(jìn)傳統(tǒng)的SQL數(shù)據(jù)倉(cāng)庫(kù)么?
如果數(shù)據(jù)量非常大,可以試著直接存放在Hadoop或者NonSQL數(shù)據(jù)庫(kù),比如Cassandra。然后在這基礎(chǔ)上使用一些SQL on Hadoop的方案去查詢數(shù)據(jù),比如Spark,或者Impala等。也有個(gè)中國(guó)人做的開(kāi)源產(chǎn)品Apache Kylin,可以一看。