ceph問題定位總結

ceph運營中經常會遇到slow request,簡單總結下定位這些問題的方法及思路:

  1. 先查看集群的cpu負載,相關命令top;
  2. 再查看磁盤的負責,相關命令iostat、dstat等;
  3. 再查看網絡方面的負載,相關命令netstat;netstat的輸出結果里面要關注下Recv-Q Send-Q這兩個queue的大小,如果Recv-Q比較大的話說明收的較慢,Send-Q比較大說明發的慢;
  4. 使用ceph --admin-daemon asok perf dump等命令來分析,輸出結果里面需要主要關注wait那一項,比如:
    "throttle-objecter_bytes": {
        "val": 35652380,
        "max": 838860800,
        "get_started": 17898,
        "get": 2182128,
        "get_sum": 4255599802310,
        "get_or_fail_fail": 17898,
        "get_or_fail_success": 2164230,
        "take": 0,
        "take_sum": 0,
        "put": 1248942,
        "put_sum": 4255564149930,
        "wait": {
            "avgcount": 17897,
            "sum": 4899.822857281
        }
    },
    "throttle-objecter_ops": {
        "val": 15,
        "max": 1024,
        "get_started": 0,
        "get": 2182128,
        "get_sum": 2182128,
        "get_or_fail_fail": 0,
        "get_or_fail_success": 2182128,
        "take": 0,
        "take_sum": 0,
        "put": 2182113,
        "put_sum": 2182113,
        "wait": {
            "avgcount": 0,
            "sum": 0.000000000
        }
    },

這種情況下可能需要調大objecter_inflight_op_bytes,但需要注意的是,調大這個配置項的話,會導致rgw使用內存增加。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Spring Cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發現,斷路器,智...
    卡卡羅2017閱讀 134,933評論 18 139
  • 背景 一年多以前我在知乎上答了有關LeetCode的問題, 分享了一些自己做題目的經驗。 張土汪:刷leetcod...
    土汪閱讀 12,771評論 0 33
  • **2014真題Directions:Read the following text. Choose the be...
    又是夜半驚坐起閱讀 9,891評論 0 23
  • 教程一:視頻截圖(Tutorial 01: Making Screencaps) 首先我們需要了解視頻文件的一些基...
    90后的思維閱讀 4,772評論 0 3
  • 春的腳步 驚醒了萬物 大地生動起來 寬闊起來 深情是大地的兒子 風的滄桑抹去了石頭梭角 春是萬物的畫筆 心一暖...
    淘猴侯孫行閱讀 340評論 17 15