最近,北大開源了一個中文分詞工具包,它在多個分詞數據集上都有非常高的分詞準確率。其中廣泛使用的結巴分詞誤差率高達 18.55% 和 20.42,而北大的 pkuseg 只有 ...

最近,北大開源了一個中文分詞工具包,它在多個分詞數據集上都有非常高的分詞準確率。其中廣泛使用的結巴分詞誤差率高達 18.55% 和 20.42,而北大的 pkuseg 只有 ...
user CF是基于相似用戶的推薦方法,實現這種推薦的基本思路是:計算出相似用戶得分,獲取相似用戶的物品集合的打分,最后兩個得分相乘,得出相似用戶推薦的物品集合topN。 ...
Python 字典(Dictionary) keys() 函數以列表返回一個字典所有的鍵。 keys()方法語法: dict.keys() 參數 NA。 返回值 返回一個字典...
iterrows():將DataFrame迭代為(insex, Series)對。 itertuples():將DataFrame迭代為元祖。 iteritems():將Da...
Hbase是被設計用來做K-V查詢,但有時候也會遇到基于Hbase表的復雜統計,寫MR很不方便。hive考慮到這一點,提供了操作Hbase表的接口。hive讀取Hbase表,...
一 Receiver方式 Receiver是使用Kafka的high level的consumer API來實現的。Receiver從Kafka中獲取數據都是存儲在Spark...
實時流式處理系統是7*24小時運行的,同時可以從各種同時可以從各種各樣的系統錯誤中恢復,在設計之處,Spark Streaing就支持driver和worker節點的錯誤恢復...
全局變量算子是updataStateByKey,需要設置checkpiont機制。 checkpoint的意思就是建立檢查點,類似于快照,例如在spark計算里面計算流程DA...
streaming的窗口操作是對一定時間段內的處理,主要是有兩個參數:窗口長度和窗口滑動時間。 下圖中窗口長度是30秒,滑動時間是10秒,可以設置為分鐘 其他窗口函數:
spark streaming是spark 核心API的拓展,是一個實時數據計算工具,具備高吞吐量、容錯機制的特點,支持多種數據源獲取數據,接受kafka、flume、HDF...
spark3.0版本可能不太公布底層的RDD,以后使用dataframe將成為趨勢,現在大都數公司也多使用dataframe來處理數據 RDD、DataFrame和DataS...
DataFrame 的函數 Action 操作 1、collect() ,返回值是一個數組,返回dataframe集合所有的行 2、collectAsList() 返回值是一...