控制復雜性是計算機編程的本質。-- Brian Kernigan Scala繼承體系結構設計非常巧妙,它沒有特殊地對待「基本數據類型」,將萬物視為對象。此外,Scala在頂層...

控制復雜性是計算機編程的本質。-- Brian Kernigan Scala繼承體系結構設計非常巧妙,它沒有特殊地對待「基本數據類型」,將萬物視為對象。此外,Scala在頂層...
前言 RDD之間的依賴關系一般分為兩種,寬依賴和窄依賴。 在網上好多博客中是這樣描述寬依賴和窄依賴的特點 窄依賴每個父RDD的一個Partition最多被子RDD的一個Par...
在DAGScheduler劃分為Stage并以TaskSet的形式提交給TaskScheduler后,再由TaskScheduler通過TaskSetMagager對task...
歡迎關注微信公眾號“Tim在路上”之前我們已經了解了shuffle writer的詳細過程,那么生成文件后會發生什么呢?以及它們是如何被讀取呢?讀取是內存的操作嗎?這些問題也...
最近在工作討論中,同事提出了這么一個問題:作用在一個RDD/DataFrame上的連續的多個map是在對數據的一次循環遍歷中完成的還是需要多次循環? 當時我很自然地回答說:不...
概要 用例(Use Case)是一種描述系統需求的方法。運用用例這種方法來描述系統需求稱之為用例建模。用例也是UML規范中的一種標準化的需求表達方式,其中比較有名的RUP(R...
:::運算符:三個冒號表示List的連接操作,比如: val a = List(1,2) val b = List(3,4) val c = a:::b //c=List(1...
摘要:列式存儲,Parquet Parquet概述 Apache Parquet是面向分析型業務的列式存儲格式,由Twitter和Cloudera合作開發,Parquet是一...
也可以看我CSDN的博客:https://blog.csdn.net/u013332124/article/details/90339850 一、Spark Thrift S...