JavaWeb小項目之綜合搜索工具(一):前端篇
JavaWeb小項目之綜合搜索工具(二):爬蟲篇
JavaWeb小項目之綜合搜索工具(三):創建RESTful服務篇
關于此項目的后臺搜索核心部分就是爬蟲了,因為之前沒有接觸過Java爬蟲的編寫,因此上網找了一些相關Demo來學習,下邊這個博主寫的demo很實在也夠基礎,起碼擴展性是非常強的。
因為此demo只是設置了鏈接、關鍵字、和請求類型,但對于爬到的數據沒有進行清洗。所以,根據需要,為自己想要的信息使用Jsoup,進行篩選。
Jsoup-API文檔:http://www.open-open.com/jsoup/
邊學邊用也就大致清楚了,有用過Python的話,其實用法跟BeautifulSoup差不多。
思路大概如下:
1.找到目標的標簽位置
如何快速定位目標位置 ?
Tips:
在Chrome中,右鍵單擊目標位置->審查元素->右鍵選中位置->Copy->Copy selector
上圖
快速定位目標位置.png
2.發起數據請求
先分析使用搜索時,對哪個地址發起請求,請求類型是什么(GET / POST) ,使用Chrome的NetWork 工具進行分析(在搜索結果頁面開著Network重新刷新頁面便能記錄下來),(已劃重點)
數據請求的信息.png
這里可以看出,是向 http://www.baikemy.com/search/searchlist
發送了POST
請求,而且還帶著兩個參數,title & dataClass。
那么規則類可以這樣寫
Rule Baikemy_rule = new Rule(
"http://www.baikemy.com/search/searchlist",
new String[] { "title","dataClass" },
new String[] { "羥基","http://search.baikemy.com/home"},
"div.ssjgye_nav > div.ssjgye_left ",
Rule.SELECTION,
Rule.POST
);
3.數據的清洗
以Baikemy_rule發起請求,將獲得Response的Document進行數據的篩選與輸出。
public static void SelectData_Baikemy(Element item, List<LinkTypeData> datas){
try {
//疾病百科下的第一個a標簽就是疾病的目標鏈接
Element link = item.getElementsByTag("a").get(0);
String link_ + link.attr("href");
String link_text = link.text();
//疾病百科下的第二個p標簽就是描述疾病詳情的內容
Element details = item.getElementsByTag("p").get(1);
String details_text = details.text();
LinkTypeData data = new LinkTypeData();
data.setLinkHref(link_href);
data.setLinkText(link_text);
data.setSummary(details_text);
//添加該元素到List集合中
datas.add(data);
}catch (RuntimeException e){
e.printStackTrace();
System.out.println("沒有找到搜索結果");
}
}
4.封裝成一個對象輸出
此處把得到的數據以一個對象的形式輸出,也方便后面把此對象封裝成一個JSON結構。
for (Element result : results){
Elements targets_jbkx=result.getElementsByClass("ssjgye_jbkx");
Elements targets_yyjs=result.getElementsByClass("ssjgye_yyjs");
Elements targets_lsjl=result.getElementsByClass("ssjgye_lsjl");
//疾病百科
for (Element target_jbkx : targets_jbkx){
SelectData_Baikemy(target_jbkx,baike_datas);
}
//醫患問答
for (Element target_yyjs:targets_yyjs){
SelectData_Baikemy(target_yyjs,wenda_datas);
}
//科普
for (Element target_lsjl:targets_lsjl){
SelectData_Baikemy(target_lsjl,kepu_datas);
}
}
//三個List匯總為一個對象
Summary_datas=new Link_Items(baike_datas,wenda_datas,kepu_datas);