線上有個任務失敗了,查看工作機器上運行的進程情況,有個進程比較陌生,如下圖
查看進程關系,可以看到這是hive起的一個子進程,如下圖
使用top命令查看cpu 使用情況,可以看到1193這個線程cpu占用總是接近100%,如下圖
使用jstack命令,查看線程狀態
看樣子是在讀取conf 文件,沒有什么異常。然而過了一會兒再看這個狀態,線程棧沒有絲毫變化。而cpu使用仍然接近100%。一般來說這是進入死循環了。重試那個hive命令,發現問題無法重現,排除了conf文件的配置問題。使用strace命令查看系統調用情況
發現也沒有系統調用,確認是在用戶態。那么應該就是代碼中的bug,查看DefferredDocumentImpl.getNodeExtra 函數的代碼,然而并沒有循環。
這就很奇怪了,看getNodeExtra函數的代碼,思來想去也不可能進入死循環。難道是內存漏洞引起的指令指針被改寫,導致執行到莫名其妙的地方去了?這個時候我就希望看到1193這個線程現在在執行什么指令,總之應該不是getNodeExtra這個函數。那么jstack能不能輸出這個信息呢。jstack --help看一下
雖然不是我想要的具體在執行什么指令,不過也許問題確實出在本地方法棧呢。試一下
看到問題真的出在本地方法,搜了一下關鍵字,找到了JDK的patch:https://bugs.openjdk.java.net/browse/JDK-8153134
這個問題的詳細描述:https://marc.info/?l=openjdk-hotspot-compiler-dev&m=147625599902638&w=2
可見這是一個小概率的并發問題,由于我們線上集群也是第一次出現,決定暫不處理,直接重試任務即可。