在Redis中,使用一個(gè)字符串來(lái)存放命令。字符串的名字叫做"scrapy_manager",它的值只有三種:start,stop 和deploy。
1.start
start這個(gè)命令的作用是創(chuàng)建一個(gè)子進(jìn)程來(lái)運(yùn)行爬蟲(chóng),使用到的是Python的subprocess庫(kù)。
self.START_SPIDER ='python {}'.format(os.path.join('last_release','main.py'))
self.process = subprocess.Popen(shlex.split(self.START_SPIDER))
由于在Windows下,路徑中使用反斜杠作為分隔符,而在Linux和Mac OS中,使用斜杠作為分隔符,所以這里的分隔符使用Python自動(dòng)生成。
shlex.split()
可以將一個(gè)字符串按照空格分成列表,因此在這里相當(dāng)于:
self.START_SPIDER.split(' ')
實(shí)際上subprocess.Popen是可以使用字符串命令作為參數(shù),但是有時(shí)候會(huì)出現(xiàn)莫名其妙的問(wèn)題,因此建議大家像上面代碼一樣將命令切分為列表來(lái)使用。
2.stop
所謂的停止爬蟲(chóng)其實(shí)就是殺掉子進(jìn)程,使用以下代碼來(lái)實(shí)現(xiàn):
self.process.kill()
3.deploy
自動(dòng)部署功能的原理是:將修改以后的爬蟲(chóng)打包為zip文件,放在Master服務(wù)器上,然后向Redis寫(xiě)入deploy命令。程序讀到這個(gè)命令以后,就使用requests將zip文件下載到本地,然后解壓縮覆蓋之前的程序。Python程序在運(yùn)行的時(shí)候,.py文件是可以被直接修改的,但是修改并不會(huì)立刻生效,因此需要停止爬蟲(chóng),然后重新運(yùn)行。在我提供給大家的代碼中,解壓縮zip的功能是通過(guò)調(diào)用系統(tǒng)API來(lái)實(shí)現(xiàn)的。大家也可以直接使用Python自帶的庫(kù)來(lái)實(shí)現(xiàn)解壓縮。