1.安裝集搜客軟件
2.確定目標網頁地址,確定爬取內容類型:只涉及本網頁內容列表還是需要層級爬取?層級爬取就是需要通過本頁找到一個新的網址爬取新頁面的內容。
3.工具的基本思路:同一個主題有多個規(guī)則,同一個規(guī)則可有多個整理箱,同一個整理箱里面有多個屬性值(多列)
步驟:1.輸入目標地址2.定義主題不重復和規(guī)則名3.制定改規(guī)則下的整理箱,將整理箱中的屬性值和網頁中的內容一一對應。4.定義規(guī)則里面的線索或者動作5.保存規(guī)則6打開打數臺,輸入想打的數據條數
問題1:怎么把相同的結構全部爬取下來,比如100條評論?
樣例復制和定位映射只能選擇一種。原理不同:樣例復制是選擇兄弟節(jié)點(一定是兄弟節(jié)點,在文本語言中緊挨著的,層級結構在同一層次上),告訴集搜客,都在什么跳到下一個采集同樣的內容。定位映射是通過HTMl的class或者樣式id等標記,將內容和樣式標記對應起來。告訴集搜客遇到得很么標記的時候,采集的內容對應什么表橋。
問題2:怎么設置層級爬???
第一層級中找到@href標記為線索映射,在爬蟲路徑中寫下第二級的主題名。保存第一級主題之后,然后建立第二級主題的具體規(guī)則。
問題4:怎么翻頁?有翻頁標記或者無翻頁標記。翻頁更多問題:http://www.gooseeker.com/doc/thread-698-1-1.html
翻頁分為??
1:通過文字下一頁或者數字,點擊下一頁爬取相同的內容,比如下一頁的商品列表。重點為:創(chuàng)建記號線索,將記號線索與相應內容對應(此部分內容本次沒有實驗,后期用的時候再改)
線索映射和線索區(qū)塊的定位映射
2.通過文字或者標記點擊下一頁,爬取另一種網頁結構:類似于層級爬取但是下一級的地址需要通過頁面標記來找到。
3.通過鼠標滑動選擇連續(xù)動作也稱滾屏或者瀑布流:
3.1在連續(xù)動作工作臺新建一個滾屏動作,因為滾屏后的網頁結構沒有變化,仍然可以用當前規(guī)則采集,所以這里的目標主題名就填寫當前規(guī)則本身的主題名。3.2滾屏動作的參數可以根據自己的需要調試。滾屏動作的高級設置一般保持默認就行,滾屏參數說明:每次滾屏次數:每次執(zhí)行滾屏動作,瀏覽器往下翻多少屏;總共滾屏數:執(zhí)行滾屏操作的次數,達到總共滾屏數就會停止?jié)L屏,-1表示無限制;
如果總共滾屏數設置成-1,就會一直滾屏停不下來,這時就必須在DS打數機上打開重復內容,這樣當爬蟲發(fā)現抓到的都是重復內容,就會停止?jié)L屏動作。設置方法:點擊DS打數機的高級菜單->終點標志->勾上重復內容。
4.模擬點擊動作:http://www.gooseeker.com/doc/article-150-1.html