緣起 最近為了排查線上系統問題,讓運維小哥導一份線上系統日志,運維小哥覺得線上導線下覺得十分麻煩,而我只需要在線上開發機可看就可以了,這個就把運...
摘要 MLSQL依賴于Spark,而且算法模塊依賴于conda來管理python包。本文將介紹如何用docker快速搭建mlsql的運行環境。 ...
spark sql 調試技巧--內置udf查看 Spark SQL內置了許多常用的udf,我們該如何拿到用戶的udf和內置的udf呢? Data...
log4j2利用SocketAppender將日志寫入rsyslog 摘要:利用elk(elasticsearch/logstash/kiban...
推薦系統是今年的主要工作之一 整體架構 推薦系統可以說是一個閉環的生態系統了。從整體架構圖中,我們就可以看出來,推薦列表從RankServer產...
摘要:Shuffle是MapReduce編程模型中最耗時的一個步驟,而Spark將Shuffle過程分解成了Shuffle Write和Shuf...
title: Java命令行使用 本文我們將對java內置命令行使用分析,這些命令行在java程序優化中扮演著重要的角色。 Jps 功能 jps...
Spark Streaming在狀態管理時應用了一些高效的數據結構,本文我們就來看下這些數據結構的實現。 BitSet OpenHashSet ...
Spark Streaming實時長時服務與MapRedue、Spark、Hive等批處理應用共享YARN集群資源。在共享環境中,經常因一個批處...