網絡編程離不開socket,接觸不多時總覺得簡單,無非是bind();listen();accept();send();recv()幾個函數癡癡用上,能跑就不管三七二十一了。最近需要寫個http代理,遇上幾個問題。
socket的本質
從前認死理,怎么就recv()收到網絡報文,功能還這么強大,嗅探,代理,服務器都用上它,就差沒往硬件上想,現在想來也算是和自己和解了,在我的理解,socket是從傳輸層提取出的一套程序接口,供應用層使用,使我們不必面對實際的tcp/ip復雜的傳輸過程。它是一套規則和機制,靈感來源于Unix一切皆文件的設計,socket就像一個文件夾,創建,讀取,寫出,關閉,只不過這里對應的是網絡數據。
socket中的accept()
accept()函數返回值是客戶端socket和客戶端地址信息,它創建了一個新的socket,稱它為cli_socket,而原先綁定的socket稱為soc。這里使我疑惑的地方就在于為什么同一個端口下有兩個socket的存在。不是一個端口標識唯一的socket嗎?
事實上,不是一個端口唯一標識,而是五元組標識一個socket,(source ip, source port, destination ip, destination port, protocol),而本地綁定的socket并不算一個完整的socket,它只包含三元組,即(destination ip, destination port, protocol),而accept()函數接受了來自客戶端的信息,至此完成一個完整的socket鏈接,這個cli_socket用于接收和發送數據,而soc則繼續用于監聽客戶端的connect請求。
再說明一點,雖說五元組唯一標識一個socket,并不是說這個端口就只能給一個socket使用,若是五元組中有不同的元素,比如說客戶端ip和端口不同,那就是另一個socket,它和服務器端相同的端口和ip構成了新的五元組,比如說服務器端的80端口供多個客戶端使用。
總的來說這些都是前人留下的規定,有的也不見得多明智,但目前還是主流,所以還是有必要知道。
參考1
參考2
socket中的數據接收問題
因為寫的是一個代理,所以既要當客戶端也要當服務端,在充當客戶端過程中,需要和web服務器通信,很簡單的一個建立連接,接收數據,是這樣的:
SerSock = socket(AF_INET, SOCK_STREAM)
SerSock.connect(SerAddr)
SerSock.send(CMessage)
message = SerSock.recv(4096)
SerSock.close()
就是創建,連接,發送,接收,關閉的過程,但是報錯,broken pipe。說是服務端還沒傳完數據,客戶端就關閉了連接。
將接收到的數據輸出了一下,發現數據都沒傳完,是這種:
細想,才知服務器傳送數據并不是一次性傳完的,學過計算機網絡的都知道,傳輸層會將數據進行分片傳輸,選擇不同的路徑傳送過來再組織到一起。那么分片的大小是多大呢?每個以太網幀都有最小的大小64bytes最大不能超過1518bytes,參考。
將代碼一改:
SerSock = socket(AF_INET, SOCK_STREAM)
SerSock.connect(SerAddr)
SerSock.send(CMessage)
FromSMessage = ''
while True:
message = SerSock.recv(4096)
if not message:
break
FromSMessage += message
SerSock.close()
可順利運行。
socket中的非阻塞問題
代理程序雖然能運行,但訪問一多就會崩掉。這里需要知道的是,socket中的send(),recv()函數都是阻塞函數,也就是說若數據沒有發送完畢或者沒有接收完畢,函數是不會返回的,那么隨著accept的客戶端請求多了,內存占用溢出,就會崩掉。怎樣設計一個非阻塞的socket程序呢?
這里主要講一下select這個對象,利用select對象的select()函數可以實現非阻塞,簡單看一下:
select.select(rlist, wlist, xlist[, timeout])
select()的參數為3個列表:第一列表為讀取輸入數據的對象;第2個接收要發送的數據,第3個存放errors,加上一個超時設置。
返回值有三個:readable,writable,exceptional
readable有3種可能:對于用來偵聽連接主服務器socket,表示已準備好接受一個到來的連接;對于已經建立并發送數據的鏈接,表示有數據到來;如果沒數據到來,表示鏈接已經關閉。
writable的情況:連接隊列中有數據,發送下一條消息。如果隊列中無數據,則從output隊列中刪除。
socket有錯誤,也要從output隊列中刪除。
所以這里實現非阻塞大體流程就是,select函數輪循,看有那個socket隊列有需要讀或寫的數據,有就全部接收或發送,沒有就忙別的。代碼大體如下:
def nonblocking(self):
inputs=[self.client,self.target]
while True:
readable,writeable,errs=select.select(inputs,[],inputs,3)
if errs:
break
for soc in readable:
data=soc.recv(self.BUFSIZE)
if data:
if soc is self.client:
self.target.send(data)
elif soc is self.target:
self.client.send(data)
else:
break
self.client.close()
self.target.close()
至此,socket問題肯定不止于此,經事尚少,暫且留意了這些,做個總結,也希望能對他人有所幫助,不對之處還望指正。