Python3實現火車票查詢工具

項目簡介:使用Python3抓取12306網站信息提供一個命令行的火車票查詢工具。通過該項目的實現,可以熟悉Python3基礎及網絡變成,以及docopt,requests,prettytable等庫的使用。

項目由小蝸牛發布在實驗樓,完整教程及在線練習地址:Python3 實現火車票查詢工具,可以直接在教程中下載代碼使用demo。

一、實驗簡潔

當你想查詢一下火車票信息的時候,你還在上 12306 官網嗎?或是打開你手機里的 APP?

下面讓我們來用 Python 寫一個命令行版的火車票查看器, 只要在命令行敲一行命令就能獲得你想要的火車票信息!如果你剛掌握了Python基礎,這將是個不錯的小練習。

1.1知識點

  • Python3 基礎知識的綜合運用
  • docopt、requests 及 prettytable 庫的使用

1.2 效果截圖

Screenshot from 2017-02-26 15-03-29.png

二、接口設計

一個應用寫出來最終是要給人使用的,哪怕只是給你自己使用。

所以,首先應該想想你希望怎么使用它?讓我們先給這個小應用起個名字吧,既然及查詢票務信息,那就叫它 tickets好了。

我們希望用戶只要輸入出發站,到達站以及日期就讓就能獲得想要的信息,比如要查看8月25號上海-北京的火車余票, 我們只需輸入:

$ tickets shanghai beijing 2016-08-25 

注意: 由于實驗樓環境中無法輸入中文,所以我們的參數設計為拼音的形式,在這里思考下使用拼音是否有什么弊端?

對這一接口進行抽象得到:

$ tickets from to date

另外,火車有各種類型,高鐵、動車、特快、快速和直達,我們希望可以提供選項只查詢特定的一種或幾種的火車,所以,我們應該有下面這些選項:

  • -g 高鐵
  • -d 動車
  • -t 特快
  • -k 快速
  • -z 直達
    這幾個選項應該能被組合使用,所以,最終我們的接口應該是這個樣子的:
$ tickets [-gdtkz] from to date

接口已經確定好了,剩下的就是實現它了。

三、代碼實現

首先安裝一下實驗需要用到的庫:

$ sudo pip install requests prettytable docopt
  • requests, 不用不多介紹了吧,使用 Python 訪問 HTTP 資源的必備庫。
  • docopt, Python3 命令行參數解析工具。
  • prettytable, 格式化信息打印工具,能讓你像 MySQL 那樣打印數據。

3.1 解析參數

Python有很多寫命令行參數解析工具,如 argparse, docopt, click,這里我們選用的是 docopt 這個簡單易用的工具。docopt 可以按我們在文檔字符串中定義的格式來解析參數,比如我們在 tickets.py:
注意: 實驗樓中無法輸入中文,參數后的中文可以使用拼音代替。

# coding: utf-8
"""Train tickets query via command-line.
   火車票通過命令行查詢。
Usage:
    tickets [-gdtkz] <from> <to> <date>

Options:
    -h,--help   顯示幫助菜單
    -g          高鐵
    -d          動車
    -t          特快
    -k          快速
    -z          直達

Example:
    tickets beijing shanghai 2016-08-25
"""
from docopt import docopt

def cli():
    """command-line interface 命令行接口"""
    arguments = docopt(__doc__)
    print(arguments)

if __name__ == '__main__':
    cli()

下面我們運行一下這個程序:

$ python3 tickets.py beijing shanghai 2017-03-01

我們得到下面的結果:

{'-d': False,
 '-g': False,
 '-k': False,
 '-t': False,
 '-z': False,
 '<date>': '2016-08-25',
 '<from>': 'beijing',
 '<to>': 'shanghai'}

3.2獲取數據

擦書已經解析好了,下面就是如何獲取數據了,這也是最主要的部分。首先我們打開12306,進入余票查詢頁面,如果你使用Chrome,那么按F12打開開發者工具,選中Network一欄,在查詢框中我們輸入上海到北京,日期2017-03-03,點擊查詢,我們在調試工具發現,查詢系統實際上請求了下面這兩個URL:

https://kyfw.12306.cn/otn/leftTicket/log?leftTicketDTO.train_date=2017-03-01&leftTicketDTO.from_station=SHH&leftTicketDTO.to_station=BJP&purpose_codes=ADULT
https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2017-03-01&leftTicketDTO.from_station=SHH&leftTicketDTO.to_station=BJP&purpose_codes=ADULT

并且返回的時JSON格式的數據!
接下來問題就簡單了,我們只需要構建請求URL然后解析返回的Json數據就可以了。但是我們發現,URL里面 from_station 和 to_station 并不是漢字或者拼音,而是一個代號,而我們想要輸入的是漢字或者拼音,我們要如何獲取代號呢?我們打開網頁源碼看看有沒有什么發現。

果然,我們在網頁里面找到了這個鏈接:https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8955 這里面貌似是包含了所有車站的中文名,拼音,簡寫和代號等信息。但是這些信息擠在一起,而我們只想要車站的拼音和大寫字母的代號信息,怎么辦呢?

正則表達式就是答案,我們寫個小腳本來匹配提取出想要的信息吧, 在parse_station.py中:

# coding: utf-8

import re
import requests
from pprint import pprint

url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8955'
response = requests.get(url, verify=False)
stations = re.findall(r'@[^|]+'   #拼音縮寫三位
                    r'\|([^|]+)'#站點名稱
                    r'\|([^|]+)'#編碼
                    r'\|[^|]+'  #拼音
                    r'\|[^|]+'  #拼音縮寫
                    r'\|[^@]+'  #序號
                    ,response.text)
stations = dict(stations)
stations = dict(zip(stations.keys(), stations.values()))
pprint(stations, indent=4)

注意,上面的正則表達式匹配出的結果轉為字典后,字典的鍵是大寫字母大號,這顯然不是我們想要的結果,于是,我們通過一個變換將鍵值反過來。 我們運行這個腳本,它將以字典的形式返回所有車站和它的大寫字母代號, 我們將結果重定向到 stations.py 中,

$ python3 parse_station.py > stations.py

我們為這個字典加名字,stations, 最終,stations.py文件是這樣的:

stations = {   '一間堡': 'YJT',
    '一面坡': 'YPB',
    '一面山': 'YST',
    '七臺河': 'QTB',
    '七甸': 'QDM',
    '七營': 'QYJ',
    '七里河': 'QLD',
    '萬樂': 'WEB',
    '萬發屯': 'WFB',
    '萬寧': 'WNQ',
  ...}

現在,用戶輸入車站的中文名,我們就可以直接從這個字典中獲取它的字母代碼了:

from docopt import docopt
from stations import stations

def cli():
    """command-line interface 命令行接口"""
    arguments = docopt(__doc__)
    from_station =stations.get(arguments['<from>'])
    to_station = stations.get(arguments['<to>'])
    date = arguments['<date>']
    # 構建URL
    url = 'https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date={}&leftTicketDTO.from_station={}&leftTicketDTO.to_station={}&purpose_codes=ADULT'.format(
        date, from_station, to_station
    )

萬事俱備,下面我們來請求這個URL獲取數據吧!這里我們使用 requests 這個庫, 它提供了非常簡單易用的接口,并且將該方法存放在get_data.py文件中

import requests

requests.packages.urllib3.disable_warnings()

class GetData(object):

    def __init__(self, date, from_station, to_station):
        self.date = date
        self.from_station = from_station
        self.to_station = to_station

    def request_12306(self):
        """requests跟12306拿數據"""
        # 構建URL
        url = 'https://kyfw.12306.cn/otn/leftTicket/log?leftTicketDTO.train_date={}&leftTicketDTO.from_station={}&leftTicketDTO.to_station={}&purpose_codes=ADULT'.format(
            self.date, self.from_station, self.to_station
        )
        # 添加verify=False參數不驗證證書
        r = requests.get(url, verify=False)
        url = 'https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date={}&leftTicketDTO.from_station={}&leftTicketDTO.to_station={}&purpose_codes=ADULT'.format(
            self.date, self.from_station, self.to_station
        )
        r = requests.get(url, verify=False)
        return r.json()

3.3解析數據

我們在formats.py文件中封裝一個簡單的類來解析數據:

"""返回規范個格式的 table"""

from prettytable import PrettyTable
from colorama import init, Fore

class Formats(object):
    def __init__(self, datas, options):
        self.datas = datas
        self.options = options

    def format_data(self):
        """返回規范的 table"""
        ptable = PrettyTable()
        header = '車次 車站 時間 歷時 一等 二等 軟臥 硬臥 硬座 無座'.split()
        ptable._set_field_names(header)
        for train in self.datas:
            trains = train.get('queryLeftNewDTO')
            if trains is not None and trains != '':
                initial = trains['station_train_code'].lower()[0]
                if not self.options or initial in self.options:
                    ptable.add_row([trains['station_train_code'], Fore.GREEN 
                        + "%s -> %s" % (trains['from_station_name'], 
                        trains['to_station_name']) + Fore.RESET, 
                        Fore.RED + "%s -> %s" % (trains['start_time'], trains['arrive_time']) 
                        + Fore.RESET, trains['lishi'], trains['zy_num'], trains['ze_num'], 
                        trains['rw_num'], trains['yw_num'], trains['yz_num'], trains['wz_num']])
        return ptable

3.4顯示結果

最后,我們將上述過程進行匯總并將結果輸出到屏幕上:

from docopt import docopt
from stations import stations
from get_data import GetData
import formats
def cli():
    arguments = docopt(__doc__)
    from_station =stations.get(arguments['<from>'])
    to_station = stations.get(arguments['<to>'])
    date = arguments['<date>']
    options = ''.join([
        key for key, value in arguments.items() if value is True
    ])
    data = GetData(date, from_station, to_station)
    result = data.request_12306()
    if result['httpstatus'] == 200 and result.get('data') is not None and result.get('data') != '':
        format_result = formats.Formats(result.get('data'), options)
        return format_result.format_data()
    else:
        return result['messages']

if __name__ == '__main__':
    print(cli())

四、總結

本課程使用Python3抓取12306網站信息提供一個命令行的火車票查詢工具。通過該項目的實現,可以學習實踐Python3基礎及網絡編程,以及docopt,request,prettytable等使用。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容