如果你想提取網頁上的文章內容,readability這個免費好用的工具絕對值得一試
官網:https://www.readability.com/
提取內容的api文檔:https://www.readability.com/developers/api/parser
注冊一下,在個人頁面可以找到你自己的token
API - GET請求,帶上token和url參數
https://www.readability.com/api/content/v1/parser?token=your_token&url=url_you_want_to_parse
響應示例---json格式返回數據
響應
來看個中文的
隨便一篇網易博客
content部分就是提取的網頁內容了,將其寫入html文件,可以直接打開顯示網頁內容
如果你只是為了提取和保存內容,到這里就可以了。
如果你需要得到網頁內容,并進行一些處理,那可能就得把&#x開頭的內容轉換成中文了&#x開頭的是什么編碼?,可能需要進行以下操作
# 去掉content中的html標記
def remove_html_tag(content):
return re.sub(r'</?\w+[^>]*>', '', content)
# 轉換成中文
def convert_to_cn(text):
# 需要將 × 這種先做補全,×
text = re.sub(r'&#x([A-F0-9]{2});', r'�\1;', text)
return text.replace('&#x', '\u') \
.replace(';', '') \
.decode('unicode-escape') \
.encode('utf-8')