Python采集前程無憂網站數據內容, 并把詳情信息保存PDF

本次內容:

Python采集某網站數據內容, 并把詳情信息保存PDF

本次使用開發環境:

  • Python 3.8
  • Pycharm 2021.2專業版
  • 保存PDF 需要 wkhtmltopdf 安裝包

模塊使用:

需安裝模塊

  • requests 數據請求模塊
    安裝方法:pip install requests
  • parsel 數據解析模塊 pip install parsel
  • pdfkit PDF模塊 pip install pdfkit

內置模塊(不許安裝)

  • re 正則表達式 內置模塊
  • json 字符串轉Json數據 內置模塊
  • csv 保存csv模塊 內置模塊
  • time 時間模塊 內置模塊

如何安裝模塊

  1. win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車
  2. 在pycharm中點擊Terminal(終端) 輸入安裝命令

本節課的案例思路(爬蟲最基本思路流程):

一. 數據來源分析

  1. 確定我們想要數據內容是什么? 音樂
  2. 通過開發者工具進行抓包分析, 分析數據來源 >>> 音樂播放地址是從哪里的

二. 代碼實現步驟 爬蟲四部曲: 發送請求 >>> 獲取數據 >>> 解析數據 >>> 保存數據

  1. 發送請求, 對于什么url發送什么請求, 攜帶headers偽裝
    網址
    發送請求get請求
  2. 獲取數據, 獲取服務器返回響應數據
  3. 解析數據, 提取我們想要數據內容 職位相關信息數據
  4. 保存數據, 保存文本/數據庫/表格.... csv表格數據
  5. 多頁數據采集

代碼展示

首先導入模塊

import requests
import parsel  # 數據解析模塊 pip install parsel
import pdfkit  # pip install pdfkit
# 導入正則表達式模塊
import re  # 內置模塊
# 導入json
import json  # 內置模塊
# 導入格式化輸出模塊
import pprint  # 內置模塊
# 導入csv模塊
import csv  # 內置模塊
# 導入時間模塊
import time

1. 發送請求

def get_job_content(title, html_url):
    # url = 'https://jobs.51job.com/shenzhen-lgq/138509815.html'  # 招聘詳情頁
    html_str = """
    <!doctype html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>Document</title>
    </head>
    <body>
    {article}
    </body>
    </html>
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
    }
    response = requests.get(url=html_url, headers=headers, proxies=[])
    response.encoding = 'gbk'

2. 獲取數據

    # print(response.text)

3. 解析數據 css選擇器 根據標簽屬性提取數據內容

    selectors = parsel.Selector(response.text)  # 把獲取到html字符串數據轉成selector對象
    content = selectors.css('body > div.tCompanyPage > div.tCompany_center.clearfix > div.tCompany_main').get()
    print(content)
    html_data = html_str.format(article=content)
    # '1.html' 公司名字 + 職位名字 命名
    html_path = 'html\\' + title + '.html'
    pdf_path = 'pdf\\' + title + '.pdf'
    with open(html_path, mode='w', encoding='utf-8') as f:
        f.write(html_data)

    config = pdfkit.configuration(wkhtmltopdf=r'C:\01-Software-installation\wkhtmltopdf\bin\wkhtmltopdf.exe')
    pdfkit.from_file(html_path, pdf_path, configuration=config)



# mode模式保存方式/讀取方式 a追加寫入 不會覆蓋  w 寫入 會覆蓋
f = open('招聘_1.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '標題',
    '公司名字',
    '薪資',
    '城市',
    '學歷',
    '經驗',
    '公司類型',
    '公司屬性',
    '公司規模',
    '福利待遇',
    '發布日期',
    '詳情頁',
])
csv_writer.writeheader()  # 寫入表頭

for page in range(1, 11):

1. 發送請求 f'{page}' 字符串格式化方法 format()

    print(f'===============================正在采集第{page}頁的數據內容===============================')
    time.sleep(2)
    url = f'https://search.51job.com/list/010000%252c020000%252c030200%252c040000,000000,0000,00,9,99,python,2,{page}.html'
    # headers 字典數據類型 鍵值對形式
    # 快速批量替換, 選擇需要替換內容 ctrl + R 輸入 正則語法
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
    }

    # 通過request模塊里面get方法對于 url地址發送請求, 并且攜帶上headers請求頭, 最后用response自定義變量接收返回數據內容
    response = requests.get(url=url, headers=headers)

2. 獲取數據, 獲取服務器返回響應數據

    # print(response.text)

3. 解析數據

    # 從response.text里面去找尋window.__SEARCH_RESULT__ = (.*?)</script>  從window.__SEARCH_RESULT__ =開始 </script>這里結束中間的
    html_data = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', response.text)[0]  # findall() 從哪里找什么數據
    # print(html_data)
    # type() 可以查看數據類型
    # print(type(html_data))
    # 如果它是一個字典的話, 對于取值的是會非常方便, 字符串轉字典數據
    json_data = json.loads(html_data)  # 轉成字典數據類型
    # 字典取值 通過鍵值對取值, 通過冒號左邊[鍵]的內容, 提取冒號右邊[值]的內容
    # pprint.pprint(json_data['engine_jds'])  格式化輸出 讓字典數據 有一個展開的輸出效果  print()打印是在一行
    # lis = [1,2,3,4,5,6,7,9]  for i in lis: (for循環遍歷) 把列表里面元素一個一個提取出來
    for index in json_data['engine_jds']:
        dit = {
            '標題': index['job_name'],
            '公司名字': index['company_name'],
            '薪資': index['providesalary_text'],
            '城市': index['workarea_text'],
            '學歷': index['attribute_text'][2],
            '經驗': index['attribute_text'][1],
            '公司類型': index['companytype_text'],
            '公司屬性': index['companyind_text'],
            '公司規模': index['companysize_text'],
            '福利待遇': index['jobwelf'],
            '發布日期': index['updatedate'],
            '詳情頁': index['job_href'],
        }
        title = index['job_name'] + index['company_name']
        title = re.sub(r'[/\:?*"<>|]', '', title)
        get_job_content(title, index['job_href'])
        csv_writer.writerow(dit)
        print(dit)

一些小知識點

無論是 css xpath 還是 re 正則表達式 提取數據返回是[]空列表

  1. 語法不對
  2. 服務器時候返回數據(是否被反爬)
  3. 是否找對數據來源

xpath-help (匹配是元素面板)

爬蟲是看服務器返回數據

python應用領域

  1. 爬蟲程序
  2. 數據分析 >>> 數據分析 powerbi
  3. 網站開發 >>> 開發一個網站
  4. 游戲開發 >>> pygame
  5. 游戲輔助 >>> 模擬點擊 圖像識別 模擬點擊
  6. 人工智能 >>> 目前算法 都是調用別人寫好API接口
  7. 圖像處理 >>> 根據照片定位 手機拍照打開定位了 然后發給別人了, 可以通過這張照片定位
  8. 自動化腳本
  9. 自動化測試 / 運維
  10. GUI桌面應用開發 開發軟件 tk pyqt
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,461評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,538評論 3 417
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,423評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,991評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,761評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,207評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,268評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,419評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,959評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,653評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,901評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,678評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,978評論 2 374

推薦閱讀更多精彩內容