簡介 特征離散化指的是將連續(xù)特征劃分離散的過程:將原始定量特征的一個區(qū)間一一映射到單一的值。離散化過程也被表述成分箱(Binning)的過程。特征離散化常應(yīng)用于邏輯回歸和金融...
簡介 特征離散化指的是將連續(xù)特征劃分離散的過程:將原始定量特征的一個區(qū)間一一映射到單一的值。離散化過程也被表述成分箱(Binning)的過程。特征離散化常應(yīng)用于邏輯回歸和金融...
存儲結(jié)構(gòu) 內(nèi)存結(jié)構(gòu) 內(nèi)存結(jié)構(gòu)主要包括 Buffer Pool、Change Buffer、Adaptive Hash Index和 Log Buffer 四大組件 Buffe...
一、redis簡介 Redis 是C語言開發(fā)的一個開源高性能鍵值對的內(nèi)存數(shù)據(jù)庫,可以用來做數(shù)據(jù)庫、緩存、消息中間件等場景,是一種NoSQL(not-only sql,非關(guān)系型...
ClickHouse物理機(jī)生成core文件配置 通常情況下,core文件會包含了程序運(yùn)行時(shí)的內(nèi)存,寄存器狀態(tài),堆棧指針,內(nèi)存管理信息還有各種函數(shù)調(diào)用堆棧信息等,我們可以理解為...
Hive從0.11版本開始提供了ORC的文件格式,ORC文件不僅僅是一種列式文件存儲格式,最重要的是有著很高的壓縮比,并且對于MapReduce來說是可切分(Split)的。...
??Flink提供了三種通用的基于迭代的圖計(jì)算模型的實(shí)現(xiàn)(Flink-Gelly:Iterative Graph Processing[https://www.jianshu...
DataX簡介 DataX 是阿里云 DataWorks數(shù)據(jù)集成[https://www.aliyun.com/product/bigdata/ide] 的開源版本,在阿里巴...
數(shù)據(jù)庫隔離的四個級別分別為: Read Uncommitted(讀取未提交內(nèi)容) 在該隔離級別,所有事務(wù)都可以看到其他未提交事務(wù)的執(zhí)行結(jié)果。本隔離級別很少用于實(shí)際應(yīng)用,因?yàn)樗?..