在軟件開發和數據分析的過程中,有很多不同的距離的計算方法,如歐氏距離,馬氏距離,等等。對這些距離的理解,有助于我們更好的建立模型,規劃數據平臺的存儲和索引功能。網上對這些距離...

lines.cache()是不行的!!
這里似乎和官方文檔不一致:
(https://spark.apache.org/docs/latest/rdd-programming-guide.html)
JavaRDD<String> lines = sc.textFile("data.txt");
JavaRDD<Integer> lineLengths = lines.map(s -> s.length());
int totalLength = lineLengths.reduce((a, b) -> a + b);
lineLengths.persist(StorageLevel.MEMORY_ONLY());
RDD持久化RDD持久化 Spark非常重要的一個功能特性就是可以將RDD持久化在內存中。當對RDD執行持久化操作時,每個節點都會將自己操作的RDD的partition持久化到內存中,并...
剛在萬達影城IMAX廳看完流浪地球,確實感受到了震撼。我印象中的中國影視制作水平還停留在五毛特效階段,流浪地球使我的印象大為改觀,不得不寫點什么來記錄一下燃爆的心情。以下有輕...
JVM 發展到今天,已經相當成熟。如果我們使用 G1作為垃圾回收方案,則配置上更是輕松很多,除了暫停時間和 xms、xmx,其他幾乎都不用管。 當然,這是理想情況。實際工作中...
緣起 最近研究Spanner,發現國內對Spanner論文的翻譯很多,但是美中不足的是,每個人都在做論文的搬運工和翻譯者,沒有加入自己的思考和設想,實在是令人悲哀。因此決定自...
作為一個分布式數據系統的開發者,對硬件需要有一些基本的常識。對這些東西的了解程度,決定了你能在多大程度上預測系統的整體性能,而這屬于一個架構師最核心的能力。今天我們來談一談硬...
前言: 上手kafka已有2年的時間,我們的數據處理量也從最初的300g/day發展到今天的T量級在這個過程中也踩了不少坑,在這里分享出來和大家共勉。 一、硬件考量 1.1、...
好久沒上簡書了。最近半年一直很忙。但這次上來發現有一篇壓在草稿箱底很久的書評,決定還是把它發出來。以下正文。 最近翻了一遍 Malcolm Gladwell 的 "Blink...
我只需要給接口增加一個字段而已。-- By 某銷售同事 為什么我寫這個 我在一家規模很小的征信公司工作。我們的開發團隊包括 QA、UI 在內只有6個人。在過去的一年半里面,我...
Celluloid 以及其生態圈里的任何成員都已經死了。事實上它還不如死的比他更早的 EventMachine。EM 至少保持了其生態系統里各組件的一致性,你現在仍然可以用 ...
20歲的時候,我和大多數這個年紀的小姑娘一樣,在一家公司以積累實習經驗的名義,安度我的青春年華。直到有一天,我爸突然告訴我,“不準再去當免費的搬運工了,趕緊好生找份工作。” ...
今天又開始看 Rubinius 的東西。原因是因為 Rails 5開始內置 Puma,而 Puma 又推薦大家使用 Rubinius,所以就順便看一下。 發現 Rubiniu...