模擬登錄知乎
這幾天在研究模擬登錄, 以知乎 - 與世界分享你的知識、經驗和見解為例。實現過程遇到不少疑問,借鑒了知乎xchaoinfo的代碼,萬分感激!
知乎登錄分為郵箱登錄和手機登錄兩種方式,通過瀏覽器的開發者工具查看,我們通過不同方式登錄時,網址是不一樣的。郵箱登錄的地址email_url = 'https://www.zhihu.com/login/email'
,手機登錄網址是phone_url = 'http://www.zhihu.com/login/phone_num'
。
1. 建立一個可以傳Cookie的opener
Cookie用來跟蹤用戶是否已經登錄的狀態信息。一旦網站認證了我們的登錄,就會將cookie存到瀏覽器中,里面包含了服務器生成的令牌、登錄有效時長、狀態跟蹤信息。當登陸有效時長達到,我們的登錄狀態就被清空,想要訪問其他需要登錄后才能訪問的頁面也就不能成功了。意思就是我們能保持登錄狀態不掉線,是因為服務器端核對了我們訪問時攜帶的cookie,核對成功后服務器端就認為我們時“已經登錄了”的狀態。urllib.requst.urlopen()
可傳入的參數中,都不能攜帶cookie信息。http.cookiejar
的FileCookieJar
可以幫到我們,FileCookieJar
可以將cookie存到本地文件中。 其中FileCookieJar
的子類LWPCookieJar
,可以存Set-Cookie3
類型的文件,而MozillaCookieJar
子類是存為.txt
格式的文件。這里我使用LWPCookieJar
。
filename = 'cookie'
cookie = http.cookiejar.LWPCookieJar(filename)
這樣就建立了一個可以保存cookie的實例對象,它還有一個方法load()
可以從本地加載已存的cookie數據,這樣我們就可以攜帶著cookie(相當于帶了一塊令牌)訪問服務器,服務器核對成功后,就可以訪問那些登錄后才能訪問的頁面。
try:
cookie.load(ignore_discard=True)
except IOError:
print('Cookie未加載!')
其中參數
ignore_discard=True
表示即使cookies將被丟棄也把它保存下來,它還有另外一個參數igonre_expires
表示當前數據覆蓋(overwritten)原文件。
現在建立一個可以處理cookie的opener。
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36',
"Host": "www.zhihu.com",
"Referer": "https://www.zhihu.com/",
}
# 創建一個可以處理cookies的opener
opener = request.build_opener(request.HTTPCookieProcessor(cookie))
# 給openner添加headers, addheaders屬性接受元組而非字典
opener.addheaders = [(key, value) for key, value in headers.items()]
接下來我們可以使用opener.open()
來傳入url和data了。
2. 獲取登錄所需關鍵參數
模擬登錄知乎,除了要POST自己的賬號密碼,還有兩個動態生成的參數,一個是_xsrf
,還有一個就是討厭的驗證碼了。我們輸入賬號密碼后,通過開發者工具找到一個名為email的json文件,請求方法是POST,可以看到其域名是https://www.zhihu.com/login/email
.我用火狐的開發者工具,點開這個文件看到里面的參數。
與chrome對應的好像是Headers下面的Form Data,在Network里面勾選preserve log就可以看到。
這里就把本人郵箱和密碼的給打碼了哈,嘿嘿。
獲取_xsrf
這個參數是動態變化了,所以不能獲取一次后就一勞永逸。從html的body里面搜索下_xsrf
,然后用正則表達式匹配出來就行。
def get_xsrf():
"""
獲取參數_xsrf
"""
req = opener.open('https://www.zhihu.com')
html = req.read().decode('utf-8')
get_xsrf_pattern = re.compile(r'<input type="hidden" name="_xsrf" value="(.*?)"')
# 這里會返回多個值,不過都是一樣的內容,取第一個就行
_xsrf = re.findall(get_xsrf_pattern, html)[0]
return _xsrf
獲取驗證碼
知乎登錄一般需要填入驗證碼,如果沒有post這個參數過去,是不能成功登錄的。
知乎的驗證碼開始把我給坑了,在html內容的頁面里搜索能看到驗證碼圖片的網址,但是實際用xxx.read().decode('utf-8')
獲取到的網頁內容是沒有這個網址的,它被隱藏了!好狡詐。研究無果只好搜索,從知乎上這個問題xchaoinfo的回答找到答案,結果是這個圖片網址中的一串數字就是時間戳。
時間戳是指格林威治時間1970年01月01日00時00分00秒(北京時間1970年01月01日08時00分00秒)起至現在的總秒數。
通過time.time()
可以查看當前時間戳。比如我當前是1471771678.5400066
,看是不是和上面紅框中的很接近!通過過換算關系t = time.time() * 1000
可以得到圖片鏈接的關鍵部分,其余部分都是不變的。驗證碼的完整地址為captcha_url = 'http://www.zhihu.com/captcha.gif?r=' + t + "&type=login"
。好了,鏈接知道了,下載下來查看并手動輸入就行了。再把這個post過去應該就可以登錄成功了,好激動。
def get_captcha():
"""
獲取驗證碼本地顯示
返回你輸入的驗證碼
"""
t = str(int(time.time() * 1000))
# 驗證碼完整網址
captcha_url = 'http://www.zhihu.com/captcha.gif?r=' + t + "&type=login"
# 下載驗證碼圖片,用下面注釋掉的方法一樣的效果
request.urlretrieve(captcha_url, 'cptcha.gif')
# image_data = request.urlopen(captcha_url).read()
# with open('cptcha.gif', 'wb') as f:
# f.write(image_data)
# 用Pillow庫顯示圖片,免去手動去文件夾打開的麻煩
im = Image.open('cptcha.gif')
im.show()
captcha = input('本次登錄需要輸入驗證碼: ')
return captcha
3. 嘗試模擬登錄知乎
關鍵的兩個東西我們都獲取到了,現在登錄一下試試吧!要將登錄方式考慮進去,如果檢測到用于輸入手機號,則我們應該訪問手機登錄網址;否則就是郵箱登錄。
def login(username, password):
"""
輸入自己的賬號密碼,模擬登錄知乎
"""
# 檢測到11位數字則是手機登錄
if re.match(r'\d{11}$', username):
url = 'http://www.zhihu.com/login/phone_num'
data = {'_xsrf': get_xsrf(),
'password': password,
'remember_me': 'true',
'phone_num': username
}
else:
url = 'https://www.zhihu.com/login/email'
data = {'_xsrf': get_xsrf(),
'password': password,
'remember_me': 'true',
'email': username
}
# 若不用驗證碼,直接登錄
post_data = parse.urlencode(data).encode('utf-8')
r = opener.open(url, post_data)
result = r.read().decode('utf-8')
# 打印返回的響應,r = 1代表響應失敗,msg里是失敗的原因
# 要用驗證碼,post后登錄
if (json.loads(result))["r"] == 1:
data['captcha'] = get_captcha()
post_data = parse.urlencode(data).encode('utf-8')
r = opener.open(url, post_data)
result = r.read().decode('utf-8')
print((json.loads(result))['msg'])
# 保存cookie到本地
cookie.save(ignore_discard=True, ignore_expires=True)
關于那句print((json.loads(result))['msg'])
,opener攜帶數據post過去,請求網址得到的響應會返回登錄信息,該數據是json類型,剛開始我一直是登錄失敗的,返回這樣的玩意兒!
{
"r": 1,
"errcode": 1991829,"data": {"captcha":"\u9a8c\u8bc1\u7801\u9519\u8bef"},
"msg": "\u9a8c\u8bc1\u7801\u9519\u8bef"
}
r為1表示登錄失敗,0表示登錄成功。msg里反映的是登錄失敗的原因是”驗證碼會話失效“。
這里一定注意,登錄是一個連貫的過程。這個過程我們總共有三次訪問網址,一定保證包括獲取動態參數,獲取驗證碼、最終模擬登陸都使用同一個opener。這也是登錄失敗的原因之一,因為剛開始獲取_xsrf
和驗證碼時用的是urlopen()
。urllib
標準庫并不很強大,可以嘗試requests
庫,會讓這個過程變得簡單。
看下結果吧。如果顯示登錄成功,可以訪問以下個人資料的網址,這個如果登錄失敗了是不能查看的,會返回到登錄界面的網址。
好了,這次模擬登錄感覺與前兩次學習比起來難度加深了,好多問題還得靠搜索才能解決。加油吧。
這里貼上全部代碼。
import re
from urllib import parse, request
import http.cookiejar
from PIL import Image
import time
import json
# 建立LWPCookieJar實例,可以存Set-Cookie3類型的文件。
# 而MozillaCookieJar類是存為'.txt'格式的文件
cookie = http.cookiejar.LWPCookieJar('cookie')
# 若本地有cookie則不用再post數據了
try:
cookie.load(ignore_discard=True)
except IOError:
print('Cookie未加載!')
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36',
"Host": "www.zhihu.com",
"Referer": "https://www.zhihu.com/",
}
opener = request.build_opener(request.HTTPCookieProcessor(cookie))
# 給openner添加headers, addheaders方法接受元組而非字典
opener.addheaders = [(key, value) for key, value in headers.items()]
def get_xsrf():
"""
獲取參數_xsrf
"""
response = opener.open('https://www.zhihu.com')
html = response.read().decode('utf-8')
get_xsrf_pattern = re.compile(r'<input type="hidden" name="_xsrf" value="(.*?)"')
_xsrf = re.findall(get_xsrf_pattern, html)[0]
return _xsrf
def get_captcha():
"""
獲取驗證碼本地顯示
返回你輸入的驗證碼
"""
t = str(int(time.time() * 1000))
captcha_url = 'http://www.zhihu.com/captcha.gif?r=' + t + "&type=login"
# 獲取驗證碼也用同一個opener
image_data = opener.open(captcha_url).read()
with open('cptcha.gif', 'wb') as f:
f.write(image_data)
im = Image.open('cptcha.gif')
im.show()
captcha = input('本次登錄需要輸入驗證碼: ')
return captcha
def login(username, password):
"""
輸入自己的賬號密碼,模擬登錄知乎
"""
# 檢測到11位數字則是手機登錄
if re.match(r'\d{11}$', username):
url = 'http://www.zhihu.com/login/phone_num'
data = {'_xsrf': get_xsrf(),
'password': password,
'remember_me': 'true',
'phone_num': username
}
else:
url = 'https://www.zhihu.com/login/email'
data = {'_xsrf': get_xsrf(),
'password': password,
'remember_me': 'true',
'email': username
}
# 若不用驗證碼,直接登錄
post_data = parse.urlencode(data).encode('utf-8')
r = opener.open(url, post_data)
result = r.read().decode('utf-8')
# 打印返回的響應,r = 1代表響應失敗,msg里是失敗的原因
# 要用驗證碼,post后登錄
if (json.loads(result))["r"] == 1:
data['captcha'] = get_captcha()
post_data = parse.urlencode(data).encode('utf-8')
r = opener.open(url, post_data)
result = r.read().decode('utf-8')
print((json.loads(result))['msg'])
# 保存cookie到本地
cookie.save(ignore_discard=True, ignore_expires=True)
def isLogin():
# 通過查看用戶個人信息來判斷是否已經登錄
url = 'https://www.zhihu.com/settings/profile'
# 獲得真實網址,可能重定向了
actual_url = opener.open(url).geturl()
if actual_url == 'https://www.zhihu.com/settings/profile':
return True
else:
return False
if __name__ == '__main__':
if isLogin():
print('您已經登錄')
else:
account = input('輸入賬號:')
secret = input('輸入密碼:')
login(account, secret)
更新: 使用requests庫重寫程序
Date:2016.8.23
今天翻看了下requests的文檔,學了點
urllib庫
再看這個不算很難。我用requests
最基本的函數重新實現以上功能,當然大部分代碼是重復的。
requests.get()
類似urllib.request.urlopen()
。如其名是以get方式請求的,接收url
,字典形式的headers
,timeout
,allow_redirects
等參數,當然還有requests.post()
,可以傳入data
參數,不像urllib
一樣需要對字典形式的data進行編碼,requests
它會自動處理并且data可以傳入json
數據。
allow_redirects
這是參數可選True
、False
,默認True
,若選False
則表示禁止重定向,按我的理解即禁止自動跳轉。
看下兩個庫的區別,返回來的response可選text
和content
,其中text
以文本形式返回,content
以二進制數據形式返回,比如我們請求的網址是圖片,就返回content
,便可以以wb
方式寫入文件了。看下這兩個庫在實現返回網頁內容的區別。對了返回的對象如response還有一個屬性是status_code
訪問成功了當然就返回的200啦。
# requests返回html內容
response = requests.get('https://www.zhihu.com', headers=headers)
html = response.text
# urllib返回html內容
req = urllib.request.Request(url)
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
然后就是requests.Session()
或者requests.session()
,兩種寫法都可以。類型都是一個class 'requests.sessions.Session'
,看下源碼其實session
返回的就是一個Session
對象。requests.Session()
會新建一個會話,可以把同一用戶的不同請求聯系起來,直到會話結束都會自動處理cookies,這比urllib
方便多了。如果只使用requests.get()
或者requests.post()
每次訪問網頁都是獨立進行的,并沒有把當前用戶的多次訪問關聯起來,故而模擬登錄需要用到requests.Session()
。然后再用新建的session使用post()
,get()
等函數。如下。
session = requests.Session()
session.get(url, headers)
session.post(url, headers, data)
這只是requests
的冰山一角!它強大著呢。號稱是HTTP FOR HUMAN。不過掌握以上基本的東西,足夠重寫模擬登錄知乎的程序。進一步學習請看requests文檔,那里有詳細介紹。
再放requests版本的。
import re
import requests
import http.cookiejar
from PIL import Image
import time
import json
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36',
"Host": "www.zhihu.com",
"Referer": "https://www.zhihu.com/",
}
# 建立一個會話,可以把同一用戶的不同請求聯系起來;直到會話結束都會自動處理cookies
session = requests.Session()
# 建立LWPCookieJar實例,可以存Set-Cookie3類型的文件。
# 而MozillaCookieJar類是存為'/.txt'格式的文件
session.cookies = http.cookiejar.LWPCookieJar("cookie")
# 若本地有cookie則不用再post數據了
try:
session.cookies.load(ignore_discard=True)
except IOError:
print('Cookie未加載!')
def get_xsrf():
"""
獲取參數_xsrf
"""
response = session.get('https://www.zhihu.com', headers=headers)
html = response.text
get_xsrf_pattern = re.compile(r'<input type="hidden" name="_xsrf" value="(.*?)"')
_xsrf = re.findall(get_xsrf_pattern, html)[0]
return _xsrf
def get_captcha():
"""
獲取驗證碼本地顯示
返回你輸入的驗證碼
"""
t = str(int(time.time() * 1000))
captcha_url = 'http://www.zhihu.com/captcha.gif?r=' + t + "&type=login"
response = session.get(captcha_url, headers=headers)
with open('cptcha.gif', 'wb') as f:
f.write(response.content)
# Pillow顯示驗證碼
im = Image.open('cptcha.gif')
im.show()
captcha = input('本次登錄需要輸入驗證碼: ')
return captcha
def login(username, password):
"""
輸入自己的賬號密碼,模擬登錄知乎
"""
# 檢測到11位數字則是手機登錄
if re.match(r'\d{11}$', username):
url = 'http://www.zhihu.com/login/phone_num'
data = {'_xsrf': get_xsrf(),
'password': password,
'remember_me': 'true',
'phone_num': username
}
else:
url = 'https://www.zhihu.com/login/email'
data = {'_xsrf': get_xsrf(),
'password': password,
'remember_me': 'true',
'email': username
}
# 若不用驗證碼,直接登錄
result = session.post(url, data=data, headers=headers)
# 打印返回的響應,r = 1代表響應失敗,msg里是失敗的原因
# loads可以反序列化內置數據類型,而load可以從文件讀取
if (json.loads(result.text))["r"] == 1:
# 要用驗證碼,post后登錄
data['captcha'] = get_captcha()
result = session.post(url, data=data, headers=headers)
print((json.loads(result.text))['msg'])
# 保存cookie到本地
session.cookies.save(ignore_discard=True, ignore_expires=True)
def isLogin():
# 通過查看用戶個人信息來判斷是否已經登錄
url = "https://www.zhihu.com/settings/profile"
# 禁止重定向,否則登錄失敗重定向到首頁也是響應200
login_code = session.get(url, headers=headers, allow_redirects=False).status_code
if login_code == 200:
return True
else:
return False
if __name__ == '__main__':
if isLogin():
print('您已經登錄')
else:
account = input('輸入賬號:')
secret = input('輸入密碼:')
login(account, secret)
以上使用到的瀏覽器UA都是電腦端的,現在知乎出了倒立文字驗證碼。如果因此而導致登錄失敗,可以將瀏覽器UA改成Android端或者IOS端。
by sunhaiyu
2016.8.21