
光陰似箭,歲月如梭。機器學習時間也將近大半年了,一直在思考為什么要學習這玩意。高數和線代一直是多少人的噩夢,諱莫如深的算法,加上spark、sc...
矩陣行列式的幾何意義 矩陣只是一個數表,行列式還要對這個數表按照規則進一步計算,最終得到一個實數、復數或者多項式 概括說來有兩個解釋: 一個解釋...
幾乎所有的機器學習模型都是與用向量表示的數值特征打交道。因此,需要將原始數據轉換為數值。 數值特征:這些特征通常為實數或整數,比如年齡 類別特征...
pipelines中文意思是計算機流水線作業,通過pipelines的api可以很方便的實現數據工作流:數據源->特征轉換->數據建模->數據預...
昨天看到這樣一道題,一機器在良好狀態生產合格產品幾率是 90%,在故障狀態生產合格產品幾率是 30%,機器良好的概率是 75%。若一日第一件產品...
spark2.4開始支持image圖片數據源操作 df的schema信息 如果是多層目錄,而且需要獲取目錄名,可以將目錄命為:cls=strin...
皮爾森相關性 樣本相關與它代表的總體相關會存在一些誤差。即使總體之間不存在相關,任然可能會獲得一個非零相關,對于小樣本來說尤其如此 當樣本只有兩...
常用的sql查詢引擎 hive,impala,hive on spark,presto(京東),drill(支持hdfs,hive),phoen...
小文件過多,會消耗hdfs的namenode的內存內存消耗=文件數+目錄數+block的數量