首先做好準備工作:
了解正則表達式中基本的Select的用法:
此處引用樓主查到的資料
http://www.tuicool.com/articles/ZnyMvu
第一個爬蟲:無驗證碼的簡單爬蟲
樓主是中南財經政法大學的,就拿本校教務處作為例子,我們的目的是獲取教務通知中的標題和超鏈接
網址:http://jwc.zuel.edu.cn/
首先查看網頁源碼,樓主用的是谷歌,F12就可以看到源碼。
接下來重點!!!!PO出JAVA源碼
<code>
//你要爬的網頁地址
String url="http://jwc.zuel.edu.cn/";
//核心代碼,鏈接到該網頁
Connection connection=Jsoup.connect(url); Document Content=connection.get();
//獲取指定位置的信息,該Demo中是新聞標題和時間 Elements links=Content.select("[class=Article_Title]"); Elements Date=Content.select("[class=Article_PublishDate]");
//首先顯示了8個新聞,用一個for循環 for(int i=0;i<8;i++) {
//得到所需字符串
String webContent=links.select("a").get(i).text();
String webDate=Date.get(i).text();
//得到超鏈接的代碼比較特殊 這里進行標注
String herf=links.select("a").get(i).attr("abs:href");
System.out.println(herf);
str[i2]=webContent; str[i2+1]=webDate;
strings[i]=herf;
}
for(int m=0;m<16;m++)
{
System.out.println(str[m]);
System.out.println(str[++m]);
}
</code>
下面是結果圖(改一改就可以應用到JSP和微信中也是可以,是不是很棒!):