1、page.getRequest().getUrl()可以獲得當前所爬取的URL是什么
2、使用xpath獲取某個顏色的內容
xpath("http://b[@style='color:black;background-color:#ffff66']/text()").get()
3、可以在
public void process(Page page) {}方法中添加正則區(qū)分URL屬于第幾輪
并在main方法中利用isExitWhenComplete()方法判斷第一輪spider是否完成采集
Spider spider = Spider.create(new BaiduKuaiZhao())
.addUrl(kwsList().get(0)).thread(50);
spider.run();
if (spider.isExitWhenComplete()) {
spider.close();
System.out.println("spider1已經結束");
System.out.println(kzList.size());
Spider spider1 = Spider.create(new BaiduKuaiZhao())
.addUrl(kzList.get(0)).thread(5);
spider1.run();
spider1.close();
}
}