開學修了一門樓sir的Java應用技術,上學期選課的時候誰特么跟我說這門課是零基礎的TAT
只能夠邊學暑期的清華課程邊做作業了……
第二次作業——爬網頁:
作業:網頁信息提取
讀取網頁,去除廣告等無關部分,主要內容在屏幕顯示或將其以TXT文件方式存盤。
要求:不使用第三方工具,自己作String處理。
本次作業經驗總結:
1. 一開始爬下來是亂碼,感覺是編碼問題,但是workspace里面默認UTF-8,沒有GBK。我想??,結果網上搜了一下,直接在設置中(workspace)填入GBK,結果就可以了~
圖0
初步結果如下圖所示:
圖1
所用到的技術:
1. try-catch 結構
? ? 用于處理異常:
圖2
2. URL數據類型,String數據類型,以及緩沖的處理(這一部分上課時候樓sir講過)
圖3
3. Pattern類,Matcher類——用于過濾出制定標簽內的正文。
我首先用它來過濾出通知的標題(標題用<h1>修飾)
圖4
4. 使用String類中的replace方法來把超鏈接(<a.xxxx>)及其中間的內容全部過濾掉。
圖5
基本上就是用了這些方法。