Google File System Big Table Map Reduce HDFS HBase Hadoop Hadoop 基于硬盤,可以處理海量數據; Spark 基...

過去十年引起廣泛關注的數據模型是 MapReduce,但 MapReduce 不是一種具有普適性的架構。相反,MapReduce 市場已經轉變為 HDFS 市場,并且似乎準備...
摘要 摘要注重邏輯和高度概括性,我的基本寫作思路是: 社會背景 -> 技術背景 -> 動機 -> 主要工作高度概括,并點名解決了什么問題 -> 收束,其中收束我認為可以是實驗...
動機 小論文要翻譯之后放在大論文,Latex 里面有很多內嵌公式、圖引用等等。最后采用了 CopyTranslator,這種方式,大大減少了工作成本。CopyTranslat...
數據模型 數據模型是對現實世界數據特征的抽象,就是字面意思,數據建模。 實體:一個人 屬性:實體的某一特征 碼:key,也可以說是鍵 數據操作 查詢 更新(插入、刪除、修改)...
抽象語法樹 一個 SQL 提交到數據庫,首先經過連接器將 SQL 語句交給語法分析器,生成一個抽象語法樹(AST)。 邏輯計劃 AST 經過語義分析與優化器,進行語義優化,使...
忽略那些錯誤日志 CTex 很多錯誤我們忽略掉,不要強迫癥,要想到我們最初只是想要免于排版而已,不用去糾結很多細節。 中文亂碼恢復 http://www.mytju.com/...
語雀寫著寫著就會覺得排版很丑,所以總是在換編輯器。后來發現 Markdown 復制進去自動轉換之后還挺好看的,然后實驗了幾次,為了防止自己在寫作的時候糾結各種工具,對自己約束...
機器學習技術給數據庫發展帶來新的機遇。但是,由于機器學習算法在訓練數據、模型設計方面有昂貴代價,而且數據庫技術本身存在諸多問題,二者在結合過程中還面臨著很多挑戰。 SageD...
評測基準是衡量數據庫系統性能的一把尺子,引導著數據庫系統的發展方向。 針對 AP 數據庫,設計了 Touchstone 針對 TP 數據庫,設計了 Lauca 大規模事務負載...
[1] Kraska, Tim, Alex Beutel, Ed H. Chi, Jeffrey Dean, and Neoklis Polyzotis. "The case...
Dabble Kraska 等人提出使用機器學習模型代替傳統的 B 樹索引,并在真實數據集上取得了不錯的效果,但其提出的模型假設工作負載是靜態的、只讀的,對于索引更新問題沒有...
數據庫 和 數倉 的本質區別? 數據庫 Database (Oracle, Mysql, PostgreSQL)主要用于事務處理,數據倉庫 Datawarehouse (Am...