sqoop是apache開源項目,主要用于關系型數據庫數據和hdfs數據的相互同步.
主要記錄下-m和--split-by參數的使用:
1. 這倆參數一般是放在一起使用
2.-m:表明需要使用幾個map任務并發執行
3.--split-by :拆分數據的字段. -m設置為4,數據有100條,sqoop首先會獲取拆分字段的最大值,最小值,步長為100/4=25;
那么第一個map執行拆分字段值為(1,25)之間的數據
第二個map執行拆分字段值為(26,50)之間的數據
第三個map執行拆分字段值為(51,75)之間的數據
第四個map執行拆分字段值為(76,100)之間的數據
注意事項:
1.拆分字段默認為主鍵
2.拆分字段的數據類型最好為int,如果不是則將-m設置為1,split-by不設置
3.拆分字段的值最好分布均勻,否則會造成數據傾斜的問題