欧美男男大粗吊1069,少妇高潮喷水小说,最近免费中文字幕2018视频

1、RDD

RDD（Resilient Distributed Dataset彈性分布式數據集）是Spark中抽象的數據結構類型，任何數據在Spark中都被表示為RDD。從編程的角度來看，RDD可以簡單看成是一個數組。和普通數組的區別是，RDD中的數據時分區存儲的，這樣不同分區的數據就可以分布在不同的機器上，同時可以被并行處理。因此，Spark應用程序所做的無非是把需要處理的數據轉換為RDD，然后對RDD進行一系列的變換和操作，從而得到結果。

2、RDD創建

RDD可以從普通數組創建出來，也可以從文件系統或者HDFS中的文件創建出來。

1) 從普通數組創建RDD，里面包含了1到9這9個數字，它們分別在3個分區中

scala> val a = sc.parallelize(1 to 9, 3)

2)讀取文件README.md來創建RDD，文件中的每一行就是RDD中的一個元素

scala> val b = sc.textFile("README.md")

3、兩類操作算子

主要分兩類，轉換（transformation）和動作（action）。兩類函數的主要區別是，transformation接受RDD并返回RDD，而action接受RDD返回非RDD.

transformation操作是延遲計算的，也就是說從一個RDD生成另一個RDD的轉換操作不是馬上執行，需要等到有action操作的時候才真正觸發運算。

action算子會觸發spark提交作業job，并將數據輸出spark系統。

4、轉換算子

更多可以參看?鏈接

1）map

對RDD中的每個元素都執行一個指定的函數來產生一個新的RDD。任何原RDD中的元素在新RDD中都有且只有一個元素與之對應。

舉例：

scala> val a = sc.parallelize(1 to 9, 3)

scala> val b = a.map(x => x*2)

scala> a.collect

res10: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)

scala> b.collect

res11: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

2）flatMap

與map類似，區別是原RDD中的元素經map處理后只能生成一個元素，而原RDD中的元素經flatmap處理后可生成多個元素來構建新RDD。

舉例：對原RDD中的每個元素x產生y個元素（從1到y，y為元素x的值）

scala> val a = sc.parallelize(1 to 4, 2)

scala> val b = a.flatMap(x => 1 to x)

scala> b.collect

res12: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4,1,2,3,4)

3）mapPartitions

mapPartitions是map的一個變種。map的輸入函數是應用于RDD中每個元素，而mapPartitions的輸入函數是應用于每個分區，也就是把每個分區中的內容作為整體來處理的。

它的函數定義為：

def mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U]

f即為輸入函數，它處理每個分區里面的內容。每個分區中的內容將以Iterator[T]傳遞給輸入函數f，f的輸出結果是Iterator[U]。最終的RDD由所有分區經過輸入函數處理后的結果合并起來的。

舉例：

上述例子中的函數myfunc是把分區中一個元素和它的下一個元素組成一個Tuple。因為分區中最后一個元素沒有下一個元素了，所以(3,4)和(6,7)不在結果中。

mapPartitions還有些變種，比如mapPartitionsWithContext，它能把處理過程中的一些狀態信息傳遞給用戶指定的輸入函數。還有mapPartitionsWithIndex，它能把分區的index傳遞給用戶指定的輸入函數。

4）mapWith

是map的另外一個變種，map只需要一個輸入函數，而mapWith有兩個輸入函數。它的定義如下：

def mapWith[A: ClassTag, U: ](constructA: Int => A, preservesPartitioning: Boolean = false)(f: (T, A) => U): RDD[U]

第一個函數constructA是把RDD的partition index（index從0開始）作為輸入，輸出為新類型A；

第二個函數f是把二元組(T, A)作為輸入（其中T為原RDD中的元素，A為第一個函數的輸出），輸出類型為U。

舉例：把partition index 乘以10，然后加上2作為新的RDD的元素。

val x = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10), 3)

x.mapWith(a => a * 10)((a, b) => (b + 2)).collect

res4: Array[Int] = Array(2, 2, 2, 12, 12, 12, 22, 22, 22, 22)

5）flatMapWith

flatMapWith與mapWith很類似，都是接收兩個函數，一個函數把partitionIndex作為輸入，輸出是一個新類型A；另外一個函數是以二元組（T,A）作為輸入，輸出為一個序列，這些序列里面的元素組成了新的RDD。它的定義如下：

def flatMapWith[A: ClassTag, U: ClassTag](constructA: Int => A, preservesPartitioning: Boolean = false)(f: (T, A) => Seq[U]): RDD[U]

舉例：

scala> val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 3)

scala> a.flatMapWith(x => x, true)((x, y) => List(y, x)).collect

res58: Array[Int] = Array(0, 1, 0, 2, 0, 3, 1, 4, 1, 5, 1, 6, 2, 7, 2,8, 2, 9)

6）flatMapValues

flatMapValues類似于mapValues，不同的在于flatMapValues應用于元素為KV對的RDD中Value。每個一元素的Value被輸入函數映射為一系列的值，然后這些值再與原RDD中的Key組成一系列新的KV對。

舉例

scala> val a = sc.parallelize(List((1,2),(3,4),(3,6)))

scala> val b = a.flatMapValues(x=>x.to(5))

scala> b.collect

res3: Array[(Int, Int)] = Array((1,2), (1,3), (1,4), (1,5), (3,4), (3,5))

上述例子中原RDD中每個元素的值被轉換為一個序列（從其當前值到5），比如第一個KV對(1,2), 其值2被轉換為2，3，4，5。然后其再與原KV對中Key組成一系列新的KV對(1,2),(1,3),(1,4),(1,5)。

7）union

8）cartesian

9）groupBy

10）filter

當需要比較不同類型數據時，參照：更多API

11）sample

12）Cache

將RDD元素從磁盤緩存到內存

如果數據需要復用，可以通過Cache算子，將數據緩存到內存。

13）persist

14）mapValues

顧名思義就是輸入函數應用于RDD中Kev-Value的Value，原RDD中的Key保持不變，與新的Value一起組成新的RDD中的元素。因此，該函數只適用于元素為KV對的RDD。

舉例：

scala> val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2)

scala> val b = a.map(x => (x.length, x))

scala> b.mapValues("x" + _ + "x").collect

res5: Array[(Int, String)] = Array((3,xdogx), (5,xtigerx), (4,xlionx),(3,xcatx), (7,xpantherx), (5,xeaglex))

15）combineByKey

16）reduceByKey

顧名思義，reduceByKey就是對元素為KV對的RDD中Key相同的元素的Value進行reduce，因此，Key相同的多個元素的值被reduce為一個值，然后與原RDD中的Key組成一個新的KV對。

舉例:

scala> val a = sc.parallelize(List((1,2),(3,4),(3,6)))

scala> a.reduceByKey((x,y) => x + y).collect

res7: Array[(Int, Int)] = Array((1,2), (3,10))

上述例子中，對Key相同的元素的值求和，因此Key為3的兩個元素被轉為了(3,10)。

17）reduce

reduce將RDD中元素兩兩傳遞給輸入函數，同時產生一個新的值，新產生的值與RDD中下一個元素再被傳遞給輸入函數直到最后只有一個值為止。

舉例：對RDD中的元素求和

scala> val c = sc.parallelize(1 to 10)

scala> c.reduce((x, y) => x + y)

res4: Int = 55

18）join

19）zip

20）intersection

intersection

5、Action算子

1）foreach

2）saveAsTextFile

3）collect

相當于toArray，將分布式的RDD返回為一個單機的Scala Array.

4）count

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Spark RDD API

Spark RDD API

1、RDD

2、RDD創建

3、兩類操作算子

4、轉換算子

5、Action算子

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Spark RDD API

1、RDD

2、RDD創建

3、兩類操作算子

4、轉換算子

5、Action算子

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

1、RDD

2、RDD創建

3、兩類操作算子

4、轉換算子

5、Action算子