利用Python攻破12306的最后一道防線

各位同學大家好,我是強子,好久沒跟大家帶來最新的技術文章了,最近有好幾個同學問我12306自動搶票能否實現,我就趁這兩天有時間用Python做了個12306自動搶票的項目,在這里我來帶著大家一起來看看到底如何一步一步攻克萬惡的12306,嘻嘻~~

我們要做12306搶票而官方又沒有提供相應的接口(也不可能提供),那么我們就只能通過自己尋找12306的數據包和買票流程來模擬瀏覽器行為實現自動化操作了,說直白一點就是爬蟲,接下來進入正題,前方高能,請系好好全帶~~

首先在買票前我們需要先確認是否有票,那么進行正常的查票,打開12306查票網站https://kyfw.12306.cn/otn/leftTicket/init輸入出發地和目的地進行搜索

那么一般在看到這個頁面的時候我們能想到的獲取車次及相關信息的方式是什么呢?對于零基礎的同學而言第一時間就會想到在源代碼里面找,但這里事實上源代碼里面根本沒有相關內容,因為該請求是采用的js中ajax異步請求的方式動態加載的,并不包含在源代碼里面,所以我們只能夠通過抓包的方式來查看瀏覽器與服務器的數據交互情況,我用的是谷歌瀏覽器所以打開開發者工具的快捷鍵是F12

注意選中紅線框出來的那一個選項,此時只要是瀏覽器和服務器發生數據交互都會在下面列表框顯示出來,我們再次點擊查詢按鈕

結果發現列表當中有了兩個請求,也就是說我們點擊查詢按鈕以后瀏覽器向服務器發起了兩次請求,那么我們來通過返回值分析下那個請求才是真正獲取到車次相關數據的請求,以便我們用Python來模擬瀏覽器操作

第一次請求:

很明顯第一次請求返回的值沒有我們需要的車次信息
第二次請求:

第二次請求里面看到了很多數據,雖然我們暫時還沒看到車次信息,但是我們發現它有個特性,就是有個列表的值里面有6個元素,而剛好我們搜索出來的從長沙到成都的車輛也是6條數據,所以這兩者肯定有一定關系,那么我們先用Python來獲取到這些數據再進行下一步分析

# -*- coding: utf-8 -*-
import urllib2
import ssl

ssl._create_default_https_context = ssl._create_unverified_context

def getList():
    req = urllib2.Request('https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2017-07-10&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=CSQ&purpose_codes=ADULT')
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
    html = urllib2.urlopen(req).read()
    return html

print getList()

首先定義一個函數來獲取車次列表信息
從抓包數據中獲取到該請求的url:https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2017-07-10&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=CSQ&purpose_codes=ADULT
為了防止被12306檢測到屏蔽我們的請求那么我們可以簡單的增加個頭信息來模擬瀏覽器的請求

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')

其中的

ssl._create_default_https_context = ssl._create_unverified_context

是因為12306采用的是https協議,而ssl證書是它自己做的并沒有得到瀏覽器的認可,所以Python默認是不會請求不受信任的證書的網站的,我們可以通過這行代碼來關閉掉證書的驗證
那么我們先來看看能不能正常獲取到我們想要的信息

事實證明我們的操作沒有問題,接下來先拿到包含有6條數據的這個列表再說
返回的數據是json格式,但是Python標準數據類型中沒有json這個類型,所以對于Python而言它就是個字符串,如果要非常方便的操作這個json我們就可以借助Python中的json這個包來把json這個字符串變成dict類型,然后通過dict的鍵值對操作方法把列表取出來并進行返回

# -*- coding: utf-8 -*-
import urllib2
import ssl
import json

ssl._create_default_https_context = ssl._create_unverified_context

def getList():
    req = urllib2.Request('https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2017-07-10&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=CSQ&purpose_codes=ADULT')
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
    html = urllib2.urlopen(req).read()
    dict = json.loads(html)
    result = dict['data']['result']
    return result

最終返回的是一個list數據,我們先把這個數據for出來再看看每一條數據都有些什么東西

for i in getList():
    print i

for出來之后我們先來看看第一條數據是什么樣的:

|預訂|76000G131805|G1318|ICW|IZQ|ICW|CWQ|07:54|18:54|11:00|N|UHESFcaIDeX22Z0zWfqttDuZXJFuWPdIa148i6TNk5spIqfp|20170710|3|W2|01|16|0|0|||||||||||無|無|無||O0M090|OM9

其實我們稍微留一下就會發現里面有包含G1318,07:54,18:54,無這樣的車次信息的,只不過看起來比較亂,但是他們都有一個特點,每個數據都是由|這個符號分開的,所以我們可以通過用|分割看看能發現什么呢?

for i in getList():
    for n in i.split('|'):
        print n
    break

可以看到所有的值都打印出來了,我們再在前面加上一個序號就能清楚到看到每個序號所對應的值到底是什么了,比如有輛火車硬座還剩3張票,軟臥還剩8張票,那我們就查看哪個序號對應的值是3哪個序號對應的值是8就搞清楚了哪個序號是代表什么座次或者其他參數了

c = 0
for i in getList():
    for n in i.split('|'):
        print '[%s] %s' %(c,n)
        c += 1
    c = 0
    break
#索引3=車次
#索引8=出發時間
#索引9=到達時間

到了這里不知道同學們有沒有發現一個問題,就是我用的這個函數只能夠獲取到從長沙到成都的數據,而別人不一定是買這個方向的火車,所以我們還得搞清楚請求的url當中的出發站和到達站的值是怎么來的

https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2017-07-10&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=CSQ&purpose_codes=ADULT

先找到出發站和到達站的參數分別是

leftTicketDTO.from_station=CDW
leftTicketDTO.to_station=CSQ

然而通過查找和分析我并沒有發現這兩個參數有規律,那么也就是說這兩個值是在之前的請求里面就已經獲取到了的,通過檢查網頁源代碼沒有找到,那么又只能通過抓包的方式來找

在抓包過程中找到了一個包的返回值是附帶有各城市的代號的,url如下:

https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9018

那么我們把這里面的城市數據復制出來單獨新建一個cons.py的文件保存起來

然后我們通過把參數做成通過輸入出發城市和到達城市就可以直接在這個數據里面匹配到相應的城市代號,代碼如下:

station = {}
for i in cons.station_names.split('@'):
    if i:
        tmp = i.split('|')
        station[tmp[1]] = tmp[2]
#print station

train_date = raw_input('請輸入出發時間')
from_station = station[raw_input('請輸入出發城市')]
to_station = station[raw_input('請輸入到達城市')]

到這里就已經能夠通過輸入時間,城市獲取相應的車次信息了

那么我們再進行一些簡單的判斷,就能實現檢查相應的時間,地點,車次是否有余票了

同時再結合登錄,購票等流程,通過自動判斷是否有票,如果無票就繼續刷新,直到有票之后自動登錄下單后通過短信或者電話等方式全自動聯系購票人手機就可以了,如下圖

由于涉及到的知識點太多,僅僅用文字的方式很難表現的面面俱到,所以有時間的同學可以到我的課堂做客,現場直播講解更加的生動易懂!

好了,本次分享就到這里了,我是強子,我們下次再見!

主題大綱

在學習Python的過程中很多時候對于ajax異步加載和驗證碼的爬蟲束手無策,其實只要了解了原理就容易解決了,一個爬蟲高手一定是一個web開發高手,因為爬蟲和反爬是相輔相成的,能夠完成12306網站的自動購票基本能搞定互聯網80%以上的爬蟲
知識點1:Python爬蟲包的使用
知識點2:文本處理,提取指定信息,過濾無用信息
知識點3:爬蟲開發思想和原則,爬取深度定義
知識點4:ajax異步的處理
知識點5:項目完整業務邏輯實現

聽眾收益

了解爬蟲開發流程
熟練使用相應的包來實現目標數據爬取
編碼的原理及處理方法,獨立處理所有的編碼問題
學習高級爬蟲的分析和開發

最后編輯于：2017.12.08 14:36:24

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,048評論 6贊 542
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,414評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,169評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,722評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,465評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,823評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,813評論 3贊 446
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,000評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,554評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,295評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,513評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,035評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,722評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,125評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,430評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,237評論 3贊 398
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,482評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

利用Python攻破12306的最后一道防線

利用Python攻破12306的最后一道防線

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

利用Python攻破12306的最后一道防線

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频