互聯網大數據采集與處理的關鍵技術研究金融大數據科技
http://www.cfc365.com/technology/bigdata/2015-03-04/13202.shtml
2.數據采集的基本流程
整個數據采集過程的基本步驟如下:
(1)將需要抓取數據的網站的URL信息(Site URL)寫入URL Queue; (2)爬蟲從URL隊列中獲取需要抓取數據的網站的Site URL信息; (3)獲取某個具體網站的網頁內容; (4)從網頁內容中抽取出該網站正文頁內容的鏈接地址; (5)從數據庫中讀取已經抓取過內容的網頁地址(Spider URL); (6)過濾URL。將當前的URL和已經抓取過的URL進行比較; (7)如果該網頁地址沒有被抓取過,則將該地址寫入(Spider URL)數據庫;如果該地址已經被抓取過,則放置對這個地址的抓取操作; (8)獲取該地址的網頁內容,并抽取出所需屬性的內容值; (9)將抽取的網頁內容寫入數據庫。
**3.數據采集的關鍵技術——鏈接過濾**
鏈接過濾的實質就是判斷一個鏈接(當前鏈接)是不是在一個鏈接集合(已經抓取過的鏈接)里面。在對網頁大數據的采集中,可以采用布隆過濾器來實現對鏈接的過濾。