2014-12-21

訣竅,大局觀

  1. 找“打印該頁面鏈接”,找“移動端顯示”,會讓格式更容易
  2. 找在js里的信息
  3. 信息可能在url里
  4. 換個網站找同樣信息
    get_text()
    去掉所有tag部分,只留下text部分。留到最后再用這個功能。
    pythonnameList = bsObj.findAll("span", {"class":"green"})for name in nameList: print(name.get_text())findAll()pythonfindAll(tag, attributes, recursive, text, limit, keywords).findAll({"h1","h2","h3","h4","h5","h6"}) # 找tag屬于的.findAll("span", {"class":"green", "class":"red"}) # 找tag=span,class屬于的nameList = bsObj.findAll(text="the prince") # 找tag的text是“the price”的個數allText = bsObj.findAll(id="text") # keywords尋找對應關鍵詞的allText = bsObj.findAll("", {"id":"text"}) # 與上式同義bsObj.findAll(class_="green") # class關鍵詞時用class_,避免關鍵詞soup.findAll(lambda tag: len(tag.attrs) == 2) # 加lambda表達式children(), descendants()pythonbsObj.find("tr",{"id":"gift1"}).children() # 滿足條件tag的直屬一級tagbsObj.find("tr",{"id":"gift1"}).descendants() # 滿足條件tag的包含的所有tagnext_siblings, previous_siblingspythonbsObj.find("table",{"id":"giftList"}).tr.next_siblings # 當前tr tag之后的并列tagbsObj.find("table",{"id":"giftList"}).previous_siblings # 當前tag之前的并列tagparentpythonbsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text() # 定位到當前tag的parentregular expressionspythonimages = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")}) # findAll加re獲取tag屬性attributespythonmyImgTag.attrs # 得到字典,包括這個tag的所有屬性myImgTag.attrs['src'] # src屬性值其他選擇,不用bs41. lxml:處理HTML,XML,很快。2. HTML Parser:buit-in
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 今天晚起。昨天和前天都欠了這分東西,一直在補,其實每天的事情每天趕緊做完是最好的。第二天來補的話總覺得有些敷...
    僥幸匯成河閱讀 145評論 0 1
  • 昨天去報了一個事業單位考試的培訓班,想了想從小到大,學生時候從來沒有做過的事,不做學生了反倒擺出了一副好學的樣子。...
    仂七閱讀 143評論 0 0
  • 報告仍然沒有完成。實驗也沒有重新開始。論文也沒有開始動筆。 開始讀“經”。開始為畢業著急。開始覺得應該認真找個妹子...
    葉恪閱讀 195評論 0 1
  • by 小Q 過去一個月工作總結 推文閱讀情況 有些閱讀率高,有些不高; 我覺得文章選擇以及編輯都是很不錯的;題目特...
    光電圈閱讀 226評論 0 2
  • 處暑聽到這個詞匯肯定很多人和魚泡泡一樣,一無所知,現在就和魚泡泡來簡單了解一下什么是處暑,處暑又名“出暑”是炎熱即...
    紅小鵲閱讀 392評論 0 0