最近工作中發現一臺虛擬機無法響應管理命令。經過排查,根本原因是 libvirtd 死鎖導致。重啟libvirtd 后恢復。
現將 debug 過程記錄,以后有類似問題可供我們參考。
問題描述:
一臺虛擬機手動重啟后無法登錄虛擬機。登錄到物理機準備用 virsh 命令
檢查虛擬機,發現virsh 命令 hang。
debug
- 首先用 strace 觀察 virsh 函數調用。
# strace virsh
stat("/usr/sbin/libvirtd", {st_mode=S_IFREG|0755, st_size=1491088, ...}) = 0
socket(PF_FILE, SOCK_STREAM, 0) = 6
connect(6, {sa_family=AF_FILE, path="/var/run/libvirt/libvirt-sock"}, 110) = 0
getsockname(6, {sa_family=AF_FILE, NULL}, [2]) = 0
futex(0x36fd238e00, FUTEX_WAKE_PRIVATE, 2147483647) = 0
gettid() = 1630
fcntl(6, F_GETFD) = 0
--- skip ---
gettid() = 1630
write(5, "\0", 1) = 1
futex(0x36fd2382c0, FUTEX_WAKE_PRIVATE, 1) = 1
rt_sigprocmask(SIG_BLOCK, [PIPE CHLD WINCH], [], 8) = 0
poll([{fd=6, events=POLLOUT}, {fd=7, events=POLLIN}], 2, -1) = 1 ([{fd=6, revents=POLLOUT}])
rt_sigprocmask(SIG_SETMASK, [], NULL, 8) = 0
write(6, "\0\0\0\34 \0\200\206\0\0\0\1\0\0\0B\0\0\0\0\0\0\0\0\0\0\0\0", 28) = 28
munmap(0x7f3a73bff000, 4198400) = 0
rt_sigprocmask(SIG_BLOCK, [PIPE CHLD WINCH], [], 8) = 0
poll([{fd=6, events=POLLIN}, {fd=7, events=POLLIN}], 2, -1
可以看到 virsh block 在 poll(), 等待 fd=6 的輸入。
fd = 6 是 virsh 與 libvirtd 通信的域套接字fd。 要繼續分析 libvird 的狀態。
- 用 gdb 調試 libvirtd
libvirtd 是一個正在運行的進程。 使用命令 gdb 調試 libvirtd。
觀察線程
# gdb libvird $(pgrep libvirtd)
(gdb) info threads
11 Thread 0x7f84cec7b700 (LWP 21852) 0x000000360800b43c in pthread_cond_wait@@GLIBC_2.3.2 () from /lib64/libpthread.so.0
10 Thread 0x7f84ce27a700 (LWP 21853) 0x000000360800edd0 in __pause_nocancel () from /lib64/libpthread.so.0
--- skip ---
2 Thread 0x7f84c9272700 (LWP 21861) 0x000000360800b43c in pthread_cond_wait@@GLIBC_2.3.2 () from /lib64/libpthread.so.0
* 1 Thread 0x7f84d4b0d860 (LWP 21851) 0x000000360800e054 in __lll_lock_wait
() from /lib64/libpthread.so.0
可以看到主線程阻塞在鎖上。 進一步觀察線程棧。
(gdb) t a a bt
Thread 10 (Thread 0x7f84ce27a700 (LWP 21853)):
#0 0x000000360800edd0 in __pause_nocancel () from /lib64/libpthread.so.0
No symbol table info available.
#1 0x0000003608008ffb in __pthread_mutex_lock_full ()
from /lib64/libpthread.so.0
No symbol table info available.
#2 0x000000000048cc82 in ?? ()
No symbol table info available.
#3 0x000000000047dac9 in ?? ()
No symbol table info available.
#4 0x000000000046787e in ?? ()
No symbol table info available.
#5 0x00000036fcef5390 in virDomainDestroy () from /usr/lib64/libvirt.so.0
No symbol table info available.
#6 0x000000000043f892 in ?? ()
No symbol table info available.
---skip---
Thread 1 (Thread 0x7f84d4b0d860 (LWP 21851)):
#0 0x000000360800e054 in __lll_lock_wait () from /lib64/libpthread.so.0
No symbol table info available.
#1 0x0000003608009388 in _L_lock_854 () from /lib64/libpthread.so.0
No symbol table info available.
#2 0x0000003608009257 in pthread_mutex_lock () from /lib64/libpthread.so.0
No symbol table info available.
#3 0x000000000047d6ea in ?? ()
No symbol table info available.
果然,這里發生了死鎖, thread10 一直執行 virDomainDestroy(), 沒有釋放。導致了 libvirtd 主線程
不會響應其他操作。
- 現在問題變成了 virDomainDestroy() 是怎么調用的,為什么沒有結束? 查看 libvirt log,可以看到最近一次 Destroy 命令是三個月前下達的,并且恰好是給這臺出問題的虛擬機。
731 2017-03-13 05:10:14.327+000017907: debug : remoteDispatchDomainDestroyHelper:1254 : server=0x18becf0 client=0x18c40b0 msg=0x18c1a80 rerr=0x7fdb57490b80 args=0x7fd b3c010b00 ret=0x7fdb3c003110
732 2017-03-13 05:10:14.327+000017902: debug : virEventPollCleanupTimeouts:501 : Clea nup 3
733 2017-03-13 05:10:14.327+000017902: debug : virEventPollCleanupHandles:549 : Clean up 16
734 2017-03-13 05:10:14.327+000017907: debug : virObjectNew:110 : OBJECT_NEW: obj=0x7 fdb3c002ca0 classname=virDomain
735 2017-03-13 05:10:14.327+000017902: debug : virEventPollMakePollFDs:378 : Prepare n=0 w=1, f=7 e=1 d=0
736 2017-03-13 05:10:14.327+000017907: debug : virObjectRef:168 : OBJECT_REF: obj=0x7 fdb48002180
737 2017-03-13 05:10:14.327+000017902: debug : virEventPollMakePollFDs:378 : Prepare n=1 w=2, f=9 e=1 d=0
738 2017-03-13 05:10:14.327+000017902: debug : virEventPollMakePollFDs:378 : Prepare n=2 w=3, f=12 e=1 d=0
739 2017-03-13 05:10:14.327+000017907: debug : virDomainDestroy:2172 : dom=0x7fdb3c00 2ca0, (VM: name=instance-00000001, uuid=6400025f-5f9b-4409-8053-f0274814cd0a)
接下來 log, 虛擬機 期望進入shutting down 狀態:
2017-03-13 05:10:15.928+000017907: debug : qemuProcessStop:4206 : Shutting down VM 'instance-00000001' pid=11004 flags=0
2017-03-13 05:10:15.928+000017907: debug : virFileClose:72 : Closed fd 27
但是接下來,libvirt log記錄了一個 end of log
====== end of log =====
按照libvirt 源碼, 這種log 是此刻有其他操作同時進行, 為防止log混亂,中斷當前log。
查看 qemu log
2017-03-13 05:10:15.928+0000: shutting down
2017-03-13 05:10:51.992+0000: shutting down
2017-03-13 05:11:11.439+0000: starting up
第一個shutting down 是 Destroy 命令做的, 第二個shutting down 未知, 但是這個process 使得 Destroy 動作 永遠無法執行下去。
初步結論:
之后沒有log表明 destroy 命令是否返回。事實上,該虛擬機3個月來還是正常運轉的,并沒有被銷毀,占用鎖的線程一直存在。
所以,可以確定libvirtd 虛擬機 Destroy 命令,會在異常操作下引發死鎖。
解決方法:
重啟libvirtd,重啟虛擬機,系統恢復正常。