問題現象
ceph集群對應虛擬機讀寫IO不正常,查看ceph集群osd都正常,查看osd讀寫性能的時候中有塊硬盤讀寫時延有抖動,導致ceph集群健康檢查有問題
image.png
臨時修復
ceph osd reweight 43 0
同時ceph -s
查看,直至集群健康
注意:會導致數據同步
制定硬盤更換方案
參考信息,大致有三種更換方法,目前是只能按照第二種方法更換,由于硬盤為JBOD模式,所以直接熱插拔
image.png
定位故障硬盤
image.png
lsblk查看
image.png
查看硬盤sn號
image.png
再BMC系統中將硬盤點亮
執行換盤操作
#設置禁止集群回填等操作標記
for i in noout nobackfill norecover noscrub nodeep-scrub;do ceph osd set $i;done
#停掉OSD服務
systemctl stop ceph-osd@43
umount /var/lib/ceph/osd/ceph-43
#將刪除的OSD從crush map中刪除
ceph osd out 43
ceph osd crush remove osd.43
#清除到OSD的認證密鑰
ceph auth del osd.43
#在osd map中清除osd
ceph osd rm 43
#拔出舊硬盤,更換新硬盤,添加新osd
ceph-volume lvm create --data /dev/sdn
#重新開啟集群禁用標志
for i in noout nobackfill norecover noscrub nodeep-scrub;do ceph osd unset $i;done
注意:增加osd會導致數據同步