#!/usr/bin/env/ python
#coding:utf8
import requests
from bs4 import BeautifulSoup
url = "http://butian.360.cn/company/lists/page/"
def getMaxPageNumber(content):
soup = BeautifulSoup(content, "html.parser")
divs = soup.find("div", class_="pages")
as_ = divs.findAll("a")
pages_text = as_[-1].get("href")
return int(pages_text.split("/")[-1])
def getWebSites(content):
results = []
soup = BeautifulSoup(content, "html.parser")
trs = soup.findAll("tr")
for tr in trs:
tds = tr.findAll('td',align="left",style="padding-left:20px;")
tds = tds[1:]
for td in tds:
url = td.string
result = url
results.append(result)
return results
def getContentOfPage(url):
return requests.get(url).text
maxPageNumber = getMaxPageNumber(getContentOfPage(url + "1"))
for page in range(1,maxPageNumber + 1):
try:
tempURL = url + str(page)
print "Getting : " + tempURL
result = getWebSites(getContentOfPage(tempURL))
outfile = open("websites.txt", "a+")
for res in result:
outfile.write("http://" + res + "/\n")
outfile.close()
except Exception as e:
pass
Python獲取補天所有廠商網址
最后編輯于 :
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
- 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...