PHP-FPM拉起過多UDP連接導致域名解析失敗

背景

最近遇到一個問題，很煩，真的很煩。無緣無故在你吃麻辣燙的時候有臺機器就告警，突然它用不了。當然，幸好我們提供的服務集群，一個干不了活，可以用其他來干。但即使這樣，我還是很煩告警。

收到的告警是：Unknown: php_network_getaddresses: getaddrinfo failed: Name or service not known

這個提示很熟悉，顯然是DNS解析出現問題了。

檢查

業務中很多地方用到域名訪問API，嘗試取一個redis域名測試，用www.test.com代替實際域名。

dig排查下問題：

    dig www.test.com
    dig: isc_socket_bind: address in use

域名解析www.test.com出現問題

直接dig一下：

    dig
    dig: isc_socket_bind: address in use

域名解析有問題，但是該dns服務在其他機器上沒有問題。

使用tcp協議查詢(dig默認是使用udp)：

    dig www.test.com +tcp
    ; <<>> DiG 9.9.4-RedHat-9.9.4-29.el7_2.2 <<>> www.test.com +tcp
    ;; global options: +cmd
    ;; Got answer:
    ;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 1269
    ;; flags: qr aa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 1, ADDITIONAL: 1

    ;; OPT PSEUDOSECTION:
    ; EDNS: version: 0, flags:; udp: 4096
    ;; QUESTION SECTION:
    ;www.test.com.      IN      A

    ;; ANSWER SECTION:
    www.test.com. 6     IN      A       client_ip

    ;; AUTHORITY SECTION:
    www.test.com. 6     IN      NS      www.test.com.

    ;; Query time: 2 msec
    ;; SERVER: ip#port(ip)
    ;; WHEN: Wed Aug 30 20:47:28 CST 2017
    ;; MSG SIZE  rcvd: 83

tcp出去是ok的。說明udp有點小問題

telnet測試redis服務：

    Trying ip...
    Connected to ip.
    Escape character is '^]'.

說明redis服務沒問題。

ping測試，提示：

    connect: Resource temporarily unavailable

我ping了在其他機器上可以ping通的域名，但這臺機器出現該提示，我找了資料，Linux文檔提示服務器監聽隊列已滿后，客戶端會報連接拒絕錯，就可能出現該錯誤。所以dns解析過程會不會也是因為這個問題引起的呢？

上面一系列檢查，得出假設：很有可能是udp連接出現問題，可能是服務器端口占用過多，導致域名解析失敗，因為域名走udp協議。

進一步驗證

    ss -anul|wc -l
    28237

這個參數確實有點多。

再看下udp端口范圍：

    cat /proc/sys/net/ipv4/ip_local_port_range
    32768   61000

61000 - 32768 = 28232 < 28237
果然端口號不夠用，所以造成之前的問題。

看看是什么東西占用大量的UDP端口號：

    ss -anulp|head -n50
    UNCONN     0      0            *:36756       *:*   users:(("php-fpm",pid=16546,fd=72))
    UNCONN     0      0            *:36757       *:*   users:(("php-fpm",pid=16173,fd=54))
    UNCONN     0      0            *:36758       *:*   users:(("php-fpm",pid=16307,fd=60))
    UNCONN     0      0            *:36759       *:*   users:(("php-fpm",pid=16414,fd=65))
    UNCONN     0      0            *:36760       *:*  users:(("php-fpm",pid=16093,fd=69))

原來是php-fpm！！作為世界上最好的語言怎么能出現這種問題呢??！好氣??！

追查問題根源：

是不是php-fpm配置問題

那么問題來了？為何php-fpm會拉起這么多的udp連接，我很是不解。腳本程序中沒有使用udp的地方呀？一開始我以為是php-fpm配置有問題，害我把php-fpm的對子進程的管理方式以及相關配置改了個遍，驗證一段時間后還是出現這個問題。

是不是nginx配置問題

所以不是php-fpm配置的問題，那會不會nginx配置問題，但理論上nginx只做一個轉發，不會造成這種現象。對nginx的參數進行調優測試，也是用默認的nginx配置測試，在一段時間后，服務器還是會報錯。

是不是程序的問題

既然niginx和php-fpm都沒有問題，那么會不會程序出問題了。
我使用了的業務接口，假設www.a.com/api ，并且創建了一個純凈的www.a.com/test.php. (腳本里面就一個echo)

訪問www.a.com/test.php，查看php-fpm拉起的UDP端口數：

    ss -anup|grep php-fpm|wc -l
    0

是0啊，好像沒有問題。

訪問www.a.com/api:

    ss -anup|grep php-fpm|wc -l
    1

再訪問一次www.a.com/api:

    ss -anup|grep php-fpm|wc -l
    2

再訪問一次！

    ss -anup|grep php-fpm|wc -l
    3

我擦，問題就在這里??！
于是迅速定位了這個api，查到了某個可疑的擴展，是一個第三方擴展，將其屏蔽，再次訪問，沒有占用任何udp端口。

我重新改寫和編譯了該擴展，這個問題就得到解決，一個php-fpm子進程最多占用一個udp端口（之前的一個php-fpm會占用幾十乃至更多的端口，造成端口不夠用）。

總結

表象：PHP-FPM拉起過多的UDP端口，一直占用，導致dns無法解析，而業務中需要訪問域名，所以出現了問題。

根源：第三方擴展使用了UDP，會不停地創建線程，api是不會回收相關線程的連接句柄。導致UDP端口過多，導致UDP在機器上的其他服務不能用。

解決方法：第三方擴展的不停創建線程和不釋放句柄修改掉。不放心的同學可以寫一個crontab，查詢UDP session，如果超多一定數量（用ss，會幣netstat快一些），那就平滑重啟php-fpm，隔一段時間執行。

tips：如果訪問量不是很大，php-fpm.conf配置中可以使用pm=ondemand模式拉起子進程，其中的pm.process_idle_timeout = 10s；設置會在空閑的時候，會平滑關閉worker，這樣你的UDP session也會因此減少，這當然只是個輔助方案。

最后編輯于：2017.12.10 05:07:50

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,321評論 6贊 543
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,559評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,442評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,835評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,581評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,922評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,931評論 3贊 447
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,096評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,639評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,374評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,591評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,104評論 5贊 364
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,789評論 3贊 349
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,196評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,524評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,322評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,554評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

PHP-FPM拉起過多UDP連接導致域名解析失敗

PHP-FPM拉起過多UDP連接導致域名解析失敗

背景

檢查

進一步驗證

追查問題根源：

是不是php-fpm配置問題

是不是nginx配置問題

是不是程序的問題

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

PHP-FPM拉起過多UDP連接導致域名解析失敗

背景

檢查

進一步驗證

追查問題根源：

是不是php-fpm配置問題

是不是nginx配置問題

是不是程序的問題

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频