
最近,北大開源了一個中文分詞工具包,它在多個分詞數據集上都有非常高的分詞準確率。其中廣泛使用的結巴分詞誤差率高達 18.55% 和 20.42,...
user CF是基于相似用戶的推薦方法,實現這種推薦的基本思路是:計算出相似用戶得分,獲取相似用戶的物品集合的打分,最后兩個得分相乘,得出相似用...
余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦...
推薦系統的目的是為客戶推薦最合適的同類產品,這些產品包括文章、商品、音樂、視頻等等,這些推薦系統比較成熟的例如淘寶、京東等各種電商的推薦(掌柜精...
Python 字典(Dictionary) keys() 函數以列表返回一個字典所有的鍵。 keys()方法語法: dict.keys() 參數...
iterrows():將DataFrame迭代為(insex, Series)對。 itertuples():將DataFrame迭代為元祖。 ...
Hbase是被設計用來做K-V查詢,但有時候也會遇到基于Hbase表的復雜統計,寫MR很不方便。hive考慮到這一點,提供了操作Hbase表的接...
hbase是列式數據庫,rowkey是字典序的。每個列族是一個文件,將經常一起查詢的列放到同一個列族中,減少文件的尋址時間。 數據模型: row...
zookeeper是松散耦合的分布式系統中粗粒度鎖以及可靠性存儲的系統,具有保管數據、提供監聽等功能,存儲的容量不高,具有開源、高效的、可協同工...