字體反爬之58同城求職簡歷數據抓取

一直想寫一篇關于字體反爬的文章,但是由于時間問題一直拖到現在,字體反爬的網站有很多比如貓眼電影專業版、汽車之家、58同城、大眾點評等,今天我就拿58同城試刀,當然58同城不止求職簡歷才有字體反爬,比如租房模塊也有,大家有空可以自己去研究。

目標

抓取58同城深圳地區的簡歷信息,由于此次主要是為了破解字體反爬,而且簡歷信息只有姓名、性別、年齡、工作經驗、學歷才有字體反爬,所有我們只抓這幾個信息,并且時間問題我們只抓取第一頁


抓取目標

目標分析

首先用瀏覽器對頁面進行抓包分析,找到信息所在的文件:

抓包

通過抓包發現信息就在當前頁面,并沒有JS加載渲染以及Ajax異步加載,既然找到了信息的地方,那我們先檢查一下我們要抓取的信息:
Elements檢查

一檢查就傻眼了,發現我們要抓取的信息全部都亂碼了,我們再查看一下網頁源代碼:
網頁源代碼

我們發現有一些字被編碼了,這到底是怎么回事呢?其實這就是我們今天要講的字體反爬,網站采用了自定義的字體文件,通過字體映射然后在瀏覽器上正常顯示,但是爬蟲抓取下來的數據要么就是亂碼,要么就是變成其他字符,那么知道了字體反爬的原理,我們就要找到字體文件,字體文件在哪里呢?字體文件一般抓包的時候可以抓到或者定義到了頁面里:
Font抓包的字體文件

網頁源代碼中的字體文件

可以看到兩個地方都找到了字體文件,而且我們發現字體文件進行了base64編碼,我們直接把字體文件下載下來,然后用百度的FontEditor工具來查看字體文件:
FontEditor查看字體文件

網頁源代碼中的編碼

頁面顯示的內容

查看字體文件字體對應的編碼然后把它們帶入到網頁源代碼中的編碼,你會發現居然還原了內容,看到這里你也許會說這還不簡單,我把這些字和編碼組成對應的映射集合,然后每次抓取的數據按照這個映射集合來替換不就是了,確實可以這樣,但是如果你刷新頁面后,你再看網頁源代碼中的編碼和字體文件,你會發現字體文件對應的編碼變了:
刷新后的字體文件

我們發現字體文件對應的編碼變了,但是所有的字沒有變,那我們該怎么辦呢?這是就要用到Python里面的字體庫Font-Tools了。

字體庫Font-Tools介紹

Font-Tools?是一套以?ttx?為核心的工具集,用于處理與字體編輯有關的各種問題,程序用?Python?編寫完成,代碼開源,具有良好的跨平臺性。Font-Tools?由以下?4?個程序組成:

  • ttx?可將字體文件與?xml?文件進行雙向轉換
  • pyft-merge?可將數個字體文件合并成為一個字體文件
  • pyft-sub-set?可產生一個由字體的指定字符組成的子集
  • pyftin-spect?可顯示字體文件的二進制組成信息

Font-Tools?原本是托管在?Source-forge?上的項目,由于原項目長期停滯,Be-hdad?在?Github?上?fork?并繼續進行開發。由于?Font-Tools?基于?Python?寫成,在安裝?Font-Tools?之前需要首先安裝?Python。

字體庫Font-Tools基本使用

  1. TTFont()用于打開本地字體文件
from fontTools.ttLib import TTFont
 
# 可以是.ttf類型的字體文件也可以是.woff類型的字體文件
# font=TTFont('58.ttf')
font=TTFont('58.woff')
  1. coordinates用于獲取字體坐標
from fontTools.ttLib import TTFont
 
font=TTFont('58.woff')
# 獲取編碼為uniE0AC的字體的坐標
x_y = font['glyf']['uniE0AC'].coordinates
  1. saveXML()將ttf文件或woff文件轉化成xml格式并保存到本地,主要是方便查看內部數據結構

from fontTools.ttLib import TTFont
 
font=TTFont('58.woff')   
font.saveXML('58.xml')

把字體文件轉化成xml格式,以便打開查看里面的數據結構。打開xml文件可以看到類似html標簽的結構:

XML結構

而對我們有用的是<GlyphOrder>標簽對象glyf標簽對象
<GlyphOrder>標簽對象

點開標簽內部,<GlyphOrder...>內包含著所有編碼信息,注意前兩個是不是0-9的編碼,需要去除。
glyf標簽對象

<glyf...> 內包含著每一個字符對象<TTGlyph>,同樣第一個和最后一個不是0-9的字符,需要去除。點開<TTGlyph>對象,里面的信息如下,是一些坐標點的信息,可以想到這些點應該是描繪字體形狀的,而且我們發現不同的字體文件雖然編碼不一樣,但是只要它們對應的文字一樣,所以我們可以在<TTGlyph>對象里找出坐標規律,這就是我們破解字體反爬的關鍵所在。

破解思路

先在本地保存一份字體文件58.woff,并通過FontEditor工具確認編碼和數字的對應關系,保存到字典中。然后重新訪問網頁的時候,把網頁中新的字體文件也下載保存到本地58tc.woff。先獲取58tc.woff中的<GlyphID...>里的編碼name的值(uni編碼),再通過uni的對象獲取其對應的TTGlyph對象的坐標,然后取前2個計算差值,與58.woff中的每一個TTGlyph對象的坐標差值相減注逐一判斷是否等于0,再根據TTGlyph對象對應的編碼,在字典中找到對應的數字。

import requests
from lxml import etree
import re
import base64
from fontTools.ttLib import TTFont

url = "https://sz.58.com/searchjob/"


headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/73.0.3683.86 Safari/537.36",
    }

response = requests.get(url, headers=headers)
html = etree.HTML(response.text)
font_face = html.xpath('//head/style[1]/text()')[0].strip()
# 提前字體文件
base64_code = re.findall(r"base64,(.*?)\)",font_face)
if len(base64_code)!=0:
    base64_code = base64_code[0]
woff = base64.b64decode(base64_code)
# base64 寫入字體文件58tc.woff中,一定要wb方式寫入,每次運行代碼會覆蓋文件
with open("58tc.woff","wb") as f:
    f.write(woff)

# 打開下載保存好的新字體文件58tc.woff
font = TTFont('58tc.woff')
# 打開本地保存的基本字體文件58.woff
base_font = TTFont("58.woff")

# getGlyphNames()[1:-1]和getGlyphOrder()[2:]結果是一樣的
# uni_list = font.getGlyphNames()[1:-1]
uni_list = font.getGlyphOrder()[2:]

# 定義一個臨時存儲新字體文件映射關系的字典temp
temp = {}
# 把本地字體文件的映射關系用base_uni和base_value兩個列表映射保存
base_uni = [
            'uniE0AC', 'uniE0D6', 'uniE189', 'uniE19A', 'uniE1BC', 'uniE441', 'uniE47A', 'uniE4BE', 'uniE4F1',
            'uniE587', 'uniE5B0', 'uniE5CE', 'uniE615', 'uniE632', 'uniE701', 'uniE87F', 'uniEAC1', 'uniEAF9',
            'uniEB60', 'uniEB96', 'uniEBB0', 'uniEC03', 'uniEF5F', 'uniEF8B', 'uniF037', 'uniF076', 'uniF0A0',
            'uniF13A', 'uniF14D', 'uniF1DB', 'uniF264', 'uniF2D1', 'uniF31A', 'uniF386', 'uniF406', 'uniF46B',
            'uniF49A', 'uniF4DB', 'uniF5F0', 'uniF607', 'uniF62A', 'uniF6E6', 'uniF772', 'uniF787', 'uniF7B9'
]
base_value =[
             '7', '下', '王', '周', '專', '0', '女', '博', '楊', '李', '校', '技', '屆', '8', '男', '科', '中',
             '趙', '生', 'M', '9', '以', '經', '6', '陳', 'A', '驗', '黃', 'B', '5', '士', '1', '張', '碩', '4',
             '高', '無', '大', '吳', 'E', '應', '3', '2', '本', '劉'
]
# 循環對比
for i in range(len(base_uni)):
    # 編碼字體坐標轉化成了列表,列表里是一個個元組,元組里放的是(x,y)坐標
    new_glyph = list(font['glyf'][uni_list[i]].coordinates)
    # 用前兩個坐標作為取差值
    new_glyph_difference = [abs(k[0] - k[1]) for k in new_glyph[:2]]
    for j in range(len(base_uni)):
        base_glyph = list(base_font['glyf'][base_uni[j]].coordinates)
        base_glyph_difference = [abs(n[0] - n[1]) for n in base_glyph[:2]]
        # 比較兩個差值是否為0
        if int(abs(sum(new_glyph_difference) / len(new_glyph_difference)-sum(base_glyph_difference) / len(base_glyph_difference))) == 0:
            # 把編碼去掉uni三個字符然后轉換成全小寫,再拼接成網頁源代碼一樣的編碼格式,最后把映射關系存儲到temp字典中
            temp["&#x" + uni_list[i][3:].lower() + ';'] = base_value[j]

# 構造正則表達式用|匹配左右任意一個表達式,替換編碼
re_rule = '(' + '|'.join(temp.keys()) + ')'
# 把所有的編碼替換成文字
response_data = re.sub(re_rule, lambda x: temp[x.group()], response.text)
data = etree.HTML(response_data)
personal_information = data .xpath('//div[@id="infolist"]/ul/li//dl[@class="infocardMessage clearfix"]')
for info in personal_information:
    # 姓名
    name = info.xpath('./dd//span[@class="infocardName fl stonefont resumeName"]/text()')[0]
    # 性別
    gender = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[1]/text()')[0]
    # 年齡
    age = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[2]/text()')[0]
    工作經驗

    work_experiences = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[3]/text()')
    if work_experiences == []:
        work_experience = ""
    else:
        work_experience = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[3]/text()')[0]
    # 學歷
    educations = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[4]/text()')
    if educations == []:
        education = ""
    else:
        education = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[4]/text()')[0]
    print(name, gender, age, work_experience, education)

結果

運行結果

下面是58.woff文件的下載地址,直接復制這個地址到瀏覽器下載,下載好放到項目目錄同級下并改名為58.woff

58.woff文件:data:application/font-woff;charset=utf-8;base64,

總結

  • 字體反爬的關鍵在于字體文件轉換成xml文件,雖然編碼變了但是中間的規律就是我們破解的依據
  • 如果字體和編碼都會發生變化的字體反爬,那么這種方式就不適合,只能使用OCR來識別文字與編碼
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,327評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,996評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,316評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,406評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,128評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,524評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,576評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,759評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,310評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,065評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,249評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,821評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,479評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,909評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,140評論 1 290
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,984評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,228評論 2 375

推薦閱讀更多精彩內容

  • 一、字體反爬的概述 目前字體反爬的網站是貓眼,汽車之家,天眼查,起點中文網,58同城等等。還有:https://w...
    夢捷者閱讀 859評論 0 1
  • 最近興致上來,就想更換了那Blog標題字體(漢字的);網上搜索了一番,發現蘇新詩柳繁體這款甚合我心;然后就著手搞將...
    晚晴幽草閱讀 2,406評論 1 8
  • 我用眼睛看,雖然看不到心靈的惡與善。但懂得藍天下有這剎那的風景作伴。所以,我不會放棄屬于自己的那份態度。讓一切渾濁...
    不俗小七閱讀 522評論 14 31
  • 看過年會之后,感受最大的是自己的激情都去哪兒了?
    TechLeap閱讀 286評論 0 0