徹底理解connection timeout

我們在connect時常常遇到connection timeout這種錯誤, 如果你仔細去觀察,會發現connect timout分兩種情況,

Caused by: java.net.ConnectException: Operation timed out (Connection timed out)

另外一種是:

Caused by: java.net.SocketTimeoutException: connect timed out

那這兩種 timeout 有什么區別?分別在什么情況下會發生?

首先無論是哪種語言,不管是客戶端還是服務端,在 TCP 編程中通常都可以為 sock 設置一個 timeout 時間。而這個 timeout 又可以細分為 connect timeout、read timeout、write timeout。read timeout 和 write timeout 必須是在 connect 之后才能發生,今天不做過多討論。上面那兩種 timeout 均屬于 connect timeout。

另外我們需要補充下 TCP 重傳機制的相關知識:

我們知道在 TCP 的三次握手中,Client 發送 SYN,Server 收到之后回 SYN_ACK,接著 Client 再回 ACK,這時 Client 便完成了 connect() 調用,進入 ESTAB 狀態。如果 Client 發送 SYN 之后,由于網絡原因或者其他問題沒有收到 Server 的 SYN_ACK,那么這時 Client 便會重傳 SYN。重傳的次數由內核參數 net.ipv4.tcp_syn_retries 控制,重傳的間隔為 [1,3,7,15,31]s 等

如果 Client 重傳完所有 SYN 之后依然沒有收到 SYN_ACK,那么這時 connect() 調用便會拋出 connection timeout 錯誤。如果 Client 在重傳 SYN 期間,Client 的 sock timeout 時間到了,那么這時 connect() 會拋出 timeout 錯誤。

理解net.ipv4.tcp_syn_retries設置

  • net.ipv4.tcp_syn_retries 的設置,表示應用程序進行connect()系統調用時,在對方不返回SYN + ACK的情況下(也就是超時的情況下),第一次發送之后,內核最多重試幾次發送SYN包;并且決定了等待時間.
  • Linux上的默認值是 net.ipv4.tcp_syn_retries = 6 ,也就是說如果是本機主動發起連接,(即主動開啟TCP三次握手中的第一個SYN包),如果一直收不到對方返回SYN + ACK ,那么應用程序最大的超時時間就是127秒

Linux 系統默認的建立 TCP 連接的超時時間為 127 秒,對于許多客戶端來說,這個時間都太長了, 特別是當這個客戶端實際上是一個服務的時候,更希望能夠盡早失敗,以便能夠選擇其它的可用服務重新嘗試。

socket對象是Linux下應用程序需要用到的和遠端建立TCP或者UDP連接的對象.

系統調用 connect(2) 則是用來嘗試建立 socket 連接(TCP)的函數。 connect 對于 UDP 來說并不是必須的,而對于 TCP 來說則是一個必須過程,著名的 TCP 3 次握手實際上也由 connect 來完成。

網絡中的連接超時非常常見,不管是廣域網還是局域網,為了一定程度上容忍失敗,所以連接加入了重試機制, 而另一方面,為了不給服務端帶來過大的壓力,重試也是有限制的。

在 Linux 中,連接超時典型為 2 分 7 秒,而對于一些 client 來說,這是一個非常長的時間;

下面來看看 2 分 7 秒是怎樣來的,以及怎樣配置 Linux kernel 來縮短這個超時。

2 分 7 秒即 127 秒,剛好是 2 的 7 次方減一,聰明的讀者可能已經看出來了,如果 TCP 握手的 SYN 包超時重試按照 2 的冪來 backoff, 那么:

第 1 次發送 SYN 報文后等待 1s(2 的 0 次冪),如果超時,則重試
第 2 次發送后等待 2s(2 的 1 次冪),如果超時,則重試
第 3 次發送后等待 4s(2 的 2 次冪),如果超時,則重試
第 4 次發送后等待 8s(2 的 3 次冪),如果超時,則重試
第 5 次發送后等待 16s(2 的 4 次冪),如果超時,則重試
第 6 次發送后等待 32s(2 的 5 次冪),如果超時,則重試
第 7 次發送后等待 64s(2 的 6 次冪),如果超時,則超時失敗

上面的結果剛好是 127 秒。也就是說 Linux 內核在嘗試建立 TCP 連接時,最多會嘗試 7 次。

接下來,我們用實驗來進行驗證:

首先,配置 iptables 來丟棄指定端口的 SYN 報文

# iptables -A INPUT --protocol tcp --dport 5000 --syn -j DROP

然后,打開 tcpdump 觀察到達指定端口的報文

# tcpdump -i lo -Ss0 -n src 127.0.0.1 and dst 127.0.0.1 and port 5000

最后,使用 telnet 連接指定端口

date '+ %F %T'; telnet 127.0.0.1 5000; date '+ %F %T';
image.png
image.png

從tcpdump的輸出也可以看到,一共發了7次SYN包(都是同一個seq號碼),第一次是正常請求,后面6次是重試,正是該內核參數 設置的值.

怎樣修改 connect timeout

Linux 內核中,net.ipv4.tcp_syn_retries 表示建立 TCP 連接時 SYN 報文重試的次數,默認為 6,可以通過 sysctl 命令查看。

 # sysctl -a | grep tcp_syn_retries
net.ipv4.tcp_syn_retries = 6

將其修改為 1,則可以將 connect 超時時間改為 3 秒,例如:

# sysctl net.ipv4.tcp_syn_retries=1
 date; telnet 127.0.0.1 5000; date;
2020年 06月 19日 星期五 22:16:11 CST
Trying 127.0.0.1...
telnet: connect to address 127.0.0.1: Connection timed out
2020年 06月 19日 星期五 22:16:14 CST

注意:sysctl 修改的內核參數在系統重啟后失效,如果需要持久化,可以修改系統配置文件,例如:,對于 CentOS 7 來說,添加 net.ipv4.tcp_syn_retries = 1 到 /etc/sysctl.conf 中即可。

應用層真正的超時時間

那么問題來了,應用層真正的超時時間一定是127秒嗎?還是不能大于127秒. 通過上面的實驗,基本可以得知應用層的超時間一定不能大于內核的設定. 如果應用層的設定小于內核的設定呢?超時時間應該是小于127秒的.我們繼續通過實驗來驗證下.

現在我的機器上,內核參數是net.ipv4.tcp_syn_retries=6,最大超時時間是 127秒 應用層代碼如下:

#!/usr/bin/python
import socket
from datetime import datetime
fmt = "%Y-%m-%d %H:%M:%S"
address = ('127.0.0.1',5000)
s = socket.socket()
s.settimeout(5) #設置socket超時時間為5秒
print datetime.now().strftime(fmt)
s.connect_ex(address)
print datetime.now().strftime(fmt)

我們再來觀察下應用程序的表現和tcpdump的輸出

python test_socket_connect_timeout.py
2020-06-19 22:10:32
2020-06-19 22:10:37
image.png

從tcpdump的輸出看到,第一次發送之后,只嘗試了2次重試(2的0次+2的1次),因為第三次重試要等2的2次方秒,也就是4秒, 前面1+2 + 4是7秒,而應用層設置的超時時間是5秒,介于2~3之間,因此第三次重試不會進行. 如果應用程序設置的超時時間足夠長,那么第三次重試應該在22:10:39進行.

小結

  • net.ipv4.tcp_syn_retries是用于設置主動發起TCP連接超時時,SYN包的重試次數,該參數如果是x,那么connect(2)調用最大的超時時間為2的x次方 -1,單位是秒.
  • 應用程序最大的超時時間不能超過內核的設定,可以小于等于內核的設定.

ps: 對 TCP 協議棧的理解總是需要慢慢積累

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,443評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,530評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,407評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,981評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,759評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,204評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,263評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,415評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,955評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,650評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,892評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,675評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,967評論 2 374