前言
nohup為什么要跟著&一起使用,不知道大家有沒有思考過其中的小區別,另外很多人會推崇使用screen,但是實際生產環境應用場景有限我就不展開了。這次實際遇到的問題主要是因為使用crontab調用了多個不同的nohup后臺執行任務,然而代碼邏輯中出現對相同文件的占用導致任務進程產生沖突使得system load負載達到600之高,需要kill任務時也不能盲目操作,需要殺掉的進程多且進程名與其它正常的進程名字有交集,需要合理運用pstree找到問題的源頭。
Linux后臺運行任務nohup結合&用法以及如何精準查找進程并kill后臺任務實踐
更新歷史
2019年11月15日 - 初稿
閱讀原文 - https://wsgzao.github.io/post/nohup/
擴展閱讀
nohup介紹
用途:不掛斷地運行命令。
語法:nohup Command [Arg …] [ & ]
- 無論是否將 nohup 命令的輸出重定向到終端,輸出都將附加到當前目錄的 nohup.out 文件中。
- 如果當前目錄的 nohup.out 文件不可寫,輸出重定向到 $HOME/nohup.out 文件中。
- 如果沒有文件能創建或打開以用于追加,那么 Command 參數指定的命令不可調用。
退出狀態:該命令返回下列出口值:
- 126 可以查找但不能調用 Command 參數指定的命令。
- 127 nohup 命令發生錯誤或不能查找由 Command 參數指定的命令。否則 nohup 命令的退出狀態是 Command 參數指定命令的退出狀態。
nohup和&的關系
使用 nohup
運行程序:
- 輸出重定向,默認重定向到當前目錄下 nohup.out 文件
- 使用 Ctrl + C 發送 SIGINT 信號,程序關閉
- 關閉 Shell Session 發送 SIGHUP 信號,程序免疫
使用 &
運行程序:
- 程序轉入后臺運行
- 結果會輸出到終端
- 使用 Ctrl + C 發送 SIGINT 信號,程序免疫
- 關閉 Shell session 發送 SIGHUP 信號,程序關閉
nohup和&使用實例
一般兩個一起組合使用不會受 Ctrl C 和 Shell 關閉的影響:
# 最簡單的后臺運行
nohup command &
# 輸出默認重定向到當前目錄下 nohup.out 文件
nohup python main.py &
# 自定義輸出文件(標準輸出和錯誤輸出合并到 main.log)
nohup python main.py >> main.log 2>&1 &
# 與上一個例子相同作用的簡寫方法
nohup python main.py &> main.log &
# 不記錄輸出信息
nohup python main.py &> /dev/null &
# 不記錄輸出信息并將程序的進程號寫入 pidfile.txt 文件中,方便后續殺死進程
nohup python main.py &> /dev/null & echo $! > pidfile.txt
由于使用 nohup 時,會自動將輸出寫入 nohup.out 文件中,如果文件很大的話,nohup.out 就會不停的增大,我們可以利用 Linux 下一個特殊的文件 /dev/null 來解決這個問題,這個文件就相當于一個黑洞,任何輸出到這個文件的東西都將消失 只保留輸出錯誤信息 nohup command >/dev/null 2>log & 所有信息都不要 nohup command >/dev/null 2>&1 &
這里解釋一下后面的 2>&1 。 這涉及到 Linux 的重定向,其中 0、1、2 分別是標準輸入、標準輸出、標準錯誤輸出,用來指定需要重定向的標準輸入輸出。默認情況下是標出輸出,也就是 1 。例如我們而上文提到的 2>&1 是 將錯誤信息重定向到標準輸出。
還有就是如果不想讓程序輸出,Linux 下有一個 /dev/null 的特殊文件,就像一個黑洞,所有輸出到這個文件的信息全部會消失,如果你不需要輸出日志,這樣做就不會導致輸出日志文件越來越大,占用存儲空間的問題了
其他相關命令
# 結束當前任務
ctrl+c
# 將一個正在前臺執行的命令放到后臺,并且處于暫停狀態
ctrl+z
# 查看任務,返回任務編號 和 進程號
jobs -l
# 將一個在后臺暫停的命令,變成在后臺繼續執行。如果后臺中有多個命令,可以用 bg %jobnumber 將選中的命令調出。
bg %jobnumber
# 將后臺中的命令調至前臺繼續運行。如果后臺中有多個命令,可以用 fg %jobnumber(是命令編號,不是進程號)將選中的命令調出
fg %jobnumber
編寫一個測試腳本
#!/bin/sh
for ((i=1; i<1000; i++))
do
d=`date '+%Y-%m-%d %H:%M:%S'`
echo "$d print ${i}"
sleep 2s
done
查找后臺運行程序
- 已知pid進程號當然最好了
- 使用
ps -ef
或者ps -aux
結合grep
過濾 - 使用
pstree -p
確認復雜進程樹結構 - 使用
lsof -i:80
查端口獲得進程號 - 使用
netstat -anp | grep 80
查端口獲得進程號,推薦使用lsof
殺死后臺運行程序
kill
kill 命令用來刪除執行中的程序或工作。kill 可將指定的信息送至程序。預設的信息為 SIGTERM (15), 可將指定程序終止。若仍無法終止該程序,可使用 SIGKILL (9) 信息嘗試強制刪除程序,即 kill -9。程序或工作的編號可利用 ps 指令或 job 指令查看。
語法
kill(選項)(參數)
選項
-a:當處理當前進程時,不限制命令名和進程號的對應關系;
-l <信息編號>:若不加<信息編號>選項,則-l參數會列出全部的信息名稱;
-p:指定kill 命令只打印相關進程的進程號,而不發送任何信號;
-s <信息名稱或編號>:指定要送出的信息;
-u:指定用戶。
參數
進程或作業識別號:指定要刪除的進程或作業。
實例
列出所有信號名稱:
kill -l
1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL
5) SIGTRAP 6) SIGABRT 7) SIGBUS 8) SIGFPE
9) SIGKILL 10) SIGUSR1 11) SIGSEGV 12) SIGUSR2
13) SIGPIPE 14) SIGALRM 15) SIGTERM 16) SIGSTKFLT
17) SIGCHLD 18) SIGCONT 19) SIGSTOP 20) SIGTSTP
21) SIGTTIN 22) SIGTTOU 23) SIGURG 24) SIGXCPU
25) SIGXFSZ 26) SIGVTALRM 27) SIGPROF 28) SIGWINCH
29) SIGIO 30) SIGPWR 31) SIGSYS 34) SIGRTMIN
35) SIGRTMIN+1 36) SIGRTMIN+2 37) SIGRTMIN+3 38) SIGRTMIN+4
39) SIGRTMIN+5 40) SIGRTMIN+6 41) SIGRTMIN+7 42) SIGRTMIN+8
43) SIGRTMIN+9 44) SIGRTMIN+10 45) SIGRTMIN+11 46) SIGRTMIN+12
47) SIGRTMIN+13 48) SIGRTMIN+14 49) SIGRTMIN+15 50) SIGRTMAX-14
51) SIGRTMAX-13 52) SIGRTMAX-12 53) SIGRTMAX-11 54) SIGRTMAX-10
55) SIGRTMAX-9 56) SIGRTMAX-8 57) SIGRTMAX-7 58) SIGRTMAX-6
59) SIGRTMAX-5 60) SIGRTMAX-4 61) SIGRTMAX-3 62) SIGRTMAX-2
63) SIGRTMAX-1 64) SIGRTMAX
只有第 9 種信號 (SIGKILL) 才可以無條件終止進程,其他信號進程都有權利忽略,下面是常用的信號:
HUP 1 終端斷線
INT 2 中斷(同 Ctrl + C)
QUIT 3 退出(同 Ctrl + \)
TERM 15 終止
KILL 9 強制終止
CONT 18 繼續(與STOP相反, fg/bg命令)
STOP 19 暫停(同 Ctrl + Z)
先用 ps 查找進程,然后用 kill 殺掉:
ps -ef | grep vim
root 3268 2884 0 16:21 pts/1 00:00:00 vim install.log
root 3370 2822 0 16:21 pts/0 00:00:00 grep vim
kill 3268
kill 3268
-bash: kill: (3268) - 沒有那個進程
killall
killall 和 pill 命令差不多都是使用進程的名稱來殺死進程,使用此指令可以殺死一組同名進程。我們可以使用 kill 命令殺死指定進程 PID 的進程,如果要找到我們需要殺死的進程,我們還需要在之前使用 ps 等命令再配合 grep 來查找進程,而 killall 把這兩個過程合二為一,是一個很好用的命令。
語法
killall(選項)(參數)
選項
-e:對長名稱進行精確匹配;
-l:忽略大小寫的不同;
-p:殺死進程所屬的進程組;
-i:交互式殺死進程,殺死進程前需要進行確認;
-l:打印所有已知信號列表;
-q:如果沒有進程被殺死。則不輸出任何信息;
-r:使用正規表達式匹配要殺死的進程名稱;
-s:用指定的進程號代替默認信號“SIGTERM”;
-u:殺死指定用戶的進程。
參數
進程名稱:指定要殺死的進程名稱。
實例
殺死所有同名進程
killall vi
使用pstree查找和殺死復雜進程
常見的3個kill命令
- kill
- pkill
- killall
搭配查找進程命令
- pidof
- pstree
# 已知進程號,啟動時輸出后臺運行程序的進程號,然后讀取進程號殺死后臺程序:
kill -9 `cat pidfile.txt`
# 進程數量較多且有規律,不和其他正常進程沖突
killall 進程名
kill -9 $(pidof 進程名)
# 進程數量多,規律不明顯,混了正常進程
pstree -p
# 復雜點的情況比如像我遇到的真實案例
|-crond(127436)-+-crond(138887)---bash(138892)---bash(138895)---grep(140604)
| |-crond(139310)---bash(139323)---bash(139324)---python(139431)
| |-crond(139311)---bash(139325)---bash(139331)---python(139452)
| |-crond(139312)---bash(139318)---bash(139319)---python(139442)
| |-crond(139313)---bash(139317)---bash(139320)---python(139444)
| |-crond(139314)---bash(139329)---bash(139340)---python(139443)
| |-crond(139315)---bash(139327)---bash(139339)---grep(140768)
| |-crond(139651)---bash(139660)---bash(139661)---python(139915)
| |-crond(139652)---bash(139664)---bash(139666)---python(139916)
| |-crond(139653)---bash(139663)---bash(139665)---python(139914)
| |-crond(139654)---bash(139675)---bash(139683)---python(139918)
| |-crond(139655)---bash(139668)---bash(139677)---python(139913)
| `-crond(139656)---bash(139669)---bash(139682)---grep(139780)
# 如果你喜歡用grep也沒有問題,多設置幾個過濾條件語句組合在一起即可
ps -ef | grep 'python' | grep -v grep | awk '{print $2}' |xargs kill -9