協(xié)程是一種用戶輕量級線程。協(xié)程擁有自己的寄存器上下文和棧,協(xié)程調(diào)度切換時寄存器上下文和棧保存到其它地方,在切回來的時候恢復(fù)先前保存的寄存器上下文和棧,因此協(xié)程能保留上一次調(diào)用時的狀態(tài),每次過程重入時進入上一次離開時所處邏輯流的位置。協(xié)程的好處:
1、無需線程上下文切換的開銷
2、無需原子操作鎖定及同步的開銷
3、方便切換控制流,簡化編程模型
4、高并發(fā)+高擴展+低成本:一個cpu支持上萬的協(xié)程都不是問題,適合高并發(fā)處理
缺點:
1、無法利用多核資源,協(xié)程的本質(zhì)是個單線程,它不能同時將單個cpu的多個核用上,協(xié)程需要和進程配合才能在多cpu上運行
2、進行阻塞(blocking)操作(如IO)時會阻塞掉整個程序
greenlet模塊:
from greenlet import greenlet
def test1():
print('test1-1')
gr2.switch()
print('test1-2')
gr2.switch()
def test2():
print('test2-1')
gr1.switch()
print('test2-2')
gr1 = greenlet(test1) #啟動一個協(xié)程
gr2 = greenlet(test2)
gr1.switch()
test1-1
test2-1
test1-2
test2-2
greenlet是手動切換線程上下文。greenlet(test1)啟動一個協(xié)程后,gr1.switch()切換到test1執(zhí)行,test1打印test1-1后切換到test2,test2打印test2-1后又切回test1,并記錄到了上一次執(zhí)行的位置,打印test1-2
gevent模塊:gevent模塊封裝了greenlet,實現(xiàn)自動切換:
import gevent
def foo():
print('in foo')
gevent.sleep(2)#觸發(fā)切換
print('in foo 2')
def bar():
print('in bar 1')
gevent.sleep(1)
print('in bar 2')
def func3():
print('in func3 1')
gevent.sleep(0)
print('in func3 2')
gevent.joinall(
[
gevent.spawn(foo), #啟動一個協(xié)程
gevent.spawn(bar),
gevent.spawn(func3)
]
)
in foo
in bar 1
in func3 1
in func3 2
in foo 2
in bar 2
啟動三個協(xié)程,打印in foo后執(zhí)行g(shù)event.sleep(2),此時會切換至打印in bar 1,此時又遇切換,執(zhí)行打印in func3 1和in func3 2,之后回到foo函數(shù)gevent.sleep(2)還未到達2秒,到達1秒后打印in bar 2,到達2秒后再打印in foo 2,總耗時2秒
協(xié)程爬蟲簡單例子:
from urllib import request
import gevent
from gevent import monkey
import time
# monkey.patch_all()#gevent檢測不到urllib的IO操作,所以不會進行切換。monkey.patch_all()是給當(dāng)前程序所有IO操作單獨做上標(biāo)記
def fun(url):
res = request.urlopen(url)
data = res.read()
f = open('url.html','wb')
f.write(data)
f.close()
print("%d bytes recived from %s" % (len(data),url))
urls = [ 'https://github.com/',
'https://zz.253.com/v5.html#/yun/index'
]
sync_all_time = time.time()
for url in urls:
fun(url)
print('同步總耗時:',time.time()-sync_all_time)
async_start_time = time.time()
gevent.joinall(
[
gevent.spawn(fun,'https://github.com/'),
gevent.spawn(fun,'https://zz.253.com/v5.html#/yun/index'),
# gevent.spawn(fun,'http://www.lxweimin.com/'),
]
)
print('異步總耗時:',time.time()-async_start_time)
59864 bytes recived from https://github.com/
1175 bytes recived from https://zz.253.com/v5.html#/yun/index
同步總耗時: 2.9010000228881836
59854 bytes recived from https://github.com/
1175 bytes recived from https://zz.253.com/v5.html#/yun/index
異步總耗時: 7.056999921798706
gevent檢測不到urllib的IO操作,不會進行切換,所以為串行。monkey.patch_all()是給當(dāng)前程序所有IO操作單獨做上標(biāo)記,如此才并行。