Zookeeper運維問題集錦

  • 實際工作中用到Zookeeper集群的地方很多, 也碰到過各種各樣的問題, 在這里作個收集整理, 后續會一直補充;
  • 其中很多問題的原因, 解決方案都是google而來, 這里只是作次搬運工;
  • 其實很多問題都跟配置有關, 只怪自己沒好好讀文檔;
  • 問題列表:
    1. 一臺 zk 節點重啟后始終無法加入到集群中, 無法對外提供服務
    2. zk的log和snapshot占用大量空間
    3. 某臺客戶端上有的進程可以連接到zk, 有的無法連接
    4. 一臺zk服務器無法對外提供服務,報錯"Have smaller server identifier, so dropping
    the connection."

    5. zk客戶端偶爾無法成功連接到zk server

一臺 zk 節點重啟后始終無法加入到集群中, 無法對外提供服務
  • 現象: 使用zkCli.sh無法連接成功該zk節點
  • 日志: 首先想到的是將該節點restart, 但問題依舊, 故查看zk的log, 有大量的如下日志
2017-07-18 17:31:12,015 - INFO  [WorkerReceiver Thread:FastLeaderElection@496] - Notification: 1 (n.leader), 77309411648 (n.zxid), 1 (n.round), LOOKING (n.state), 1 (n.sid), LOOKING (my state)
2017-07-18 17:31:12,016 - INFO  [WorkerReceiver Thread:FastLeaderElection@496] - Notification: 3 (n.leader), 73014444480 (n.zxid), 831 (n.round), LEADING (n.state), 3 (n.sid), LOOKING (my state)
2017-07-18 17:31:12,017 - INFO  [WorkerReceiver Thread:FastLeaderElection@496] - Notification: 3 (n.leader), 77309411648 (n.zxid), 832 (n.round), FOLLOWING (n.state), 2 (n.sid), LOOKING (my state)
2017-07-18 17:31:15,219 - INFO  [QuorumPeer:/0.0.0.0:2181:FastLeaderElection@697] - Notification time out: 6400
zk的log和snapshot占用大量空間
  • 現象: zk的datadir下的version-2下有大量的log和snapshot文件, 占用大量的磁盤空間
  • 解決: 在配置文件里打開周期性自動清理的開關 autopurge.purgeInterval=1, 當然也可以通過 autopurge.snapRetainCount來設置需要保留的snapshot文件個數,默認是3;
某臺客戶端上有的進程可以連接到zk, 有的無法連接
  • 現象: 同一臺客戶端機器上啟動多個相同的進程, 有些進程無法連接到zk集群
  • zk服務端日志:
Too many connections from /x.x.x.x - max is x
  • 解決: zk的配置中maxClientCnxns設置過小, 這個參數用來限制單個IP對zk集群的并發訪問;
一臺zk服務器無法對外提供服務,報錯"Have smaller server identifier, so dropping the connection."
  • 現象:使用zkCli.sh無法連接成功該zk節點;
  • 日志: 大量報錯:Have smaller server identifier, so dropping the connection.
  • 解決方案: 保持這臺有問題zk的現狀, 按myid從小到大依次重啟其他的zk機器;
  • 原因: zk是需要集群中所有機器兩兩建立連接的, 其中配置中的3555端口是用來進行選舉時機器直接建立通訊的端口, 大id的server才會去連接小id的server,避免連接浪費.如果是最后重啟myid最小的實例,該實例將不能加入到集群中, 因為不能和其他集群建立連接
zk客戶端偶爾無法成功連接到zk server
  • 現象: 同一臺機器來運行的zk客戶端, 偶發無法成功連接到zk server
  • 分析:
    1. 當時提供給業務一份sdk, sdk初始化時需要先連接zk, 初始化結束后斷開zk的連接,業務將這份sdk用在了由fpm-php 處理的前端web請求的php代碼中, 該業務的QPS在6K-8K左右, 相當于zk在處理大量的短連接請求;
    2. 在zk服務端監控下列命令的輸出, overflowed和droped的數值在不斷增加,說明 listen的accept queue有不斷被打滿的情況
[root@m1 ~]# netstat -s |grep -i listen
    53828 times the listen queue of a socket overflowed
    53828 SYNs to LISTEN sockets ignored
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內容