Python采集前程無憂網站數據內容, 并把詳情信息保存PDF

本次內容:

Python采集某網站數據內容, 并把詳情信息保存PDF

本次使用開發環境:

Python 3.8
Pycharm 2021.2專業版
保存PDF 需要 wkhtmltopdf 安裝包

模塊使用:

需安裝模塊

requests 數據請求模塊
安裝方法：pip install requests
parsel 數據解析模塊 pip install parsel
pdfkit PDF模塊 pip install pdfkit

內置模塊（不許安裝）

re 正則表達式內置模塊
json 字符串轉Json數據內置模塊
csv 保存csv模塊內置模塊
time 時間模塊內置模塊

如何安裝模塊

win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車
在pycharm中點擊Terminal(終端) 輸入安裝命令

本節課的案例思路(爬蟲最基本思路流程):

一. 數據來源分析

確定我們想要數據內容是什么? 音樂
通過開發者工具進行抓包分析, 分析數據來源 >>> 音樂播放地址是從哪里的

二. 代碼實現步驟爬蟲四部曲: 發送請求 >>> 獲取數據 >>> 解析數據 >>> 保存數據

發送請求, 對于什么url發送什么請求, 攜帶headers偽裝
網址
發送請求get請求
獲取數據, 獲取服務器返回響應數據
解析數據, 提取我們想要數據內容職位相關信息數據
保存數據, 保存文本/數據庫/表格.... csv表格數據
多頁數據采集

代碼展示

首先導入模塊

import requests
import parsel  # 數據解析模塊 pip install parsel
import pdfkit  # pip install pdfkit
# 導入正則表達式模塊
import re  # 內置模塊
# 導入json
import json  # 內置模塊
# 導入格式化輸出模塊
import pprint  # 內置模塊
# 導入csv模塊
import csv  # 內置模塊
# 導入時間模塊
import time

1. 發送請求

def get_job_content(title, html_url):
    # url = 'https://jobs.51job.com/shenzhen-lgq/138509815.html'  # 招聘詳情頁
    html_str = """
    <!doctype html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>Document</title>
    </head>
    <body>
    {article}
    </body>
    </html>
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
    }
    response = requests.get(url=html_url, headers=headers, proxies=[])
    response.encoding = 'gbk'

2. 獲取數據

    # print(response.text)

3. 解析數據 css選擇器根據標簽屬性提取數據內容

    selectors = parsel.Selector(response.text)  # 把獲取到html字符串數據轉成selector對象
    content = selectors.css('body > div.tCompanyPage > div.tCompany_center.clearfix > div.tCompany_main').get()
    print(content)
    html_data = html_str.format(article=content)
    # '1.html' 公司名字 + 職位名字 命名
    html_path = 'html\\' + title + '.html'
    pdf_path = 'pdf\\' + title + '.pdf'
    with open(html_path, mode='w', encoding='utf-8') as f:
        f.write(html_data)

    config = pdfkit.configuration(wkhtmltopdf=r'C:\01-Software-installation\wkhtmltopdf\bin\wkhtmltopdf.exe')
    pdfkit.from_file(html_path, pdf_path, configuration=config)



# mode模式保存方式/讀取方式 a追加寫入 不會覆蓋  w 寫入 會覆蓋
f = open('招聘_1.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '標題',
    '公司名字',
    '薪資',
    '城市',
    '學歷',
    '經驗',
    '公司類型',
    '公司屬性',
    '公司規模',
    '福利待遇',
    '發布日期',
    '詳情頁',
])
csv_writer.writeheader()  # 寫入表頭

for page in range(1, 11):

1. 發送請求 f'{page}' 字符串格式化方法 format()

    print(f'===============================正在采集第{page}頁的數據內容===============================')
    time.sleep(2)
    url = f'https://search.51job.com/list/010000%252c020000%252c030200%252c040000,000000,0000,00,9,99,python,2,{page}.html'
    # headers 字典數據類型 鍵值對形式
    # 快速批量替換, 選擇需要替換內容 ctrl + R 輸入 正則語法
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
    }

    # 通過request模塊里面get方法對于 url地址發送請求, 并且攜帶上headers請求頭, 最后用response自定義變量接收返回數據內容
    response = requests.get(url=url, headers=headers)

2. 獲取數據, 獲取服務器返回響應數據

    # print(response.text)

3. 解析數據

    # 從response.text里面去找尋window.__SEARCH_RESULT__ = (.*?)</script>  從window.__SEARCH_RESULT__ =開始 </script>這里結束中間的
    html_data = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', response.text)[0]  # findall() 從哪里找什么數據
    # print(html_data)
    # type() 可以查看數據類型
    # print(type(html_data))
    # 如果它是一個字典的話, 對于取值的是會非常方便, 字符串轉字典數據
    json_data = json.loads(html_data)  # 轉成字典數據類型
    # 字典取值 通過鍵值對取值, 通過冒號左邊[鍵]的內容, 提取冒號右邊[值]的內容
    # pprint.pprint(json_data['engine_jds'])  格式化輸出 讓字典數據 有一個展開的輸出效果  print()打印是在一行
    # lis = [1,2,3,4,5,6,7,9]  for i in lis: (for循環遍歷) 把列表里面元素一個一個提取出來
    for index in json_data['engine_jds']:
        dit = {
            '標題': index['job_name'],
            '公司名字': index['company_name'],
            '薪資': index['providesalary_text'],
            '城市': index['workarea_text'],
            '學歷': index['attribute_text'][2],
            '經驗': index['attribute_text'][1],
            '公司類型': index['companytype_text'],
            '公司屬性': index['companyind_text'],
            '公司規模': index['companysize_text'],
            '福利待遇': index['jobwelf'],
            '發布日期': index['updatedate'],
            '詳情頁': index['job_href'],
        }
        title = index['job_name'] + index['company_name']
        title = re.sub(r'[/\:?*"<>|]', '', title)
        get_job_content(title, index['job_href'])
        csv_writer.writerow(dit)
        print(dit)

一些小知識點

無論是 css xpath 還是 re 正則表達式提取數據返回是[]空列表

語法不對
服務器時候返回數據(是否被反爬)
是否找對數據來源

xpath-help (匹配是元素面板)

爬蟲是看服務器返回數據

python應用領域

爬蟲程序
數據分析 >>> 數據分析 powerbi
網站開發 >>> 開發一個網站
游戲開發 >>> pygame
游戲輔助 >>> 模擬點擊圖像識別模擬點擊
人工智能 >>> 目前算法都是調用別人寫好API接口
圖像處理 >>> 根據照片定位手機拍照打開定位了然后發給別人了, 可以通過這張照片定位
自動化腳本
自動化測試 / 運維
GUI桌面應用開發開發軟件 tk pyqt

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,461評論 6贊 532
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,538評論 3贊 417
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,423評論 0贊 375
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,991評論 1贊 312
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,761評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,207評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,268評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,419評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,959評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,782評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,983評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,528評論 5贊 359
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,222評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,653評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,901評論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,678評論 3贊 392
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,978評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Python采集前程無憂網站數據內容, 并把詳情信息保存PDF

Python采集前程無憂網站數據內容, 并把詳情信息保存PDF

本次內容:

本次使用開發環境:

模塊使用:

需安裝模塊

內置模塊（不許安裝）

如何安裝模塊

本節課的案例思路(爬蟲最基本思路流程):

一. 數據來源分析

二. 代碼實現步驟爬蟲四部曲: 發送請求 >>> 獲取數據 >>> 解析數據 >>> 保存數據

代碼展示

首先導入模塊

1. 發送請求

2. 獲取數據

3. 解析數據 css選擇器根據標簽屬性提取數據內容

1. 發送請求 f'{page}' 字符串格式化方法 format()

2. 獲取數據, 獲取服務器返回響應數據

3. 解析數據

一些小知識點

python應用領域

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Python采集前程無憂網站數據內容, 并把詳情信息保存PDF

本次內容:

本次使用開發環境:

模塊使用:

需安裝模塊

內置模塊（不許安裝）

如何安裝模塊

本節課的案例思路(爬蟲最基本思路流程):

一. 數據來源分析

二. 代碼實現步驟 爬蟲四部曲: 發送請求 >>> 獲取數據 >>> 解析數據 >>> 保存數據

代碼展示

首先導入模塊

1. 發送請求

2. 獲取數據

3. 解析數據 css選擇器 根據標簽屬性提取數據內容

1. 發送請求 f'{page}' 字符串格式化方法 format()

2. 獲取數據, 獲取服務器返回響應數據

3. 解析數據

一些小知識點

python應用領域

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

二. 代碼實現步驟爬蟲四部曲: 發送請求 >>> 獲取數據 >>> 解析數據 >>> 保存數據

3. 解析數據 css選擇器根據標簽屬性提取數據內容