爬蟲之BeautifulSoup(一)--安裝與基本語法

  1. 安裝BeautifulSoup
    使用管理員模式進行pip下載安裝
    pip install beautifulsoup4
    此時安裝的模塊所在的路徑為:C:\Program Files\Python36\Lib\site-packages

  2. 導入BeautifulSoup
    from bs4 import BeautifulSoup

  3. 使用基本語句

demo = r. text   # 其中r為通過requests獲取的信息
soup = BeautifulSoup(demo,"html.parser") 
print(soup.prettify())
Beautiful Soup庫解析器

此時soup可以作為一個BeautifulSoup類,該類作為html或者xml文檔的全部內容。


Beautiful Soup類的基本元素
soup.title   # soup的title標簽
soup.a     # soup的a標簽
soup.a.name   # 標簽a的名字
soup.a.attrs     #字典格式的屬性列表
soup.a.string   # 非屬性字符串
# 注釋中的string與一般標簽相同,只顯示字符串,
# 無法區分,可以使用type來區分
type(soup.a.string)   # <class 'bs4.element.NavigableString'>
type(soup.b.string)    #<class 'bs4.element.Comment'>
基本元素
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容