錯誤原因
出現錯誤的原因是由于我突發奇想寫了一個reboot集群的腳本,導致集群非法關機,然后就炸了。。。
錯誤表現、解決過程
在我使用上述reboot腳本后,發現MobaXterm(遠程工具)ssh死活連不上了。
趕緊檢查集群,發現如下報錯:
由于心急沒有管報錯(第一次見看不懂),直接輸密碼進入界面(我的是無可視化界面的CentOS 6.5)。
進界面后首先嘗試ssh其他節點。報錯。
嘗試從宿主機ping虛擬機,也ping不通。
那么首先確定網絡問題,查看/etc/sysconfig/network-scripts/ifcfg-eth0下的ip配置。
沒有問題。
輸入命令查看ip:
[root@RuHuTian ~] ip addr
發現只有127.0.0.1,此時基本確定網絡服務故障或未自啟動。
輸入命令啟動網絡服務:
[root@RuHuTian ~] service network start
[root@RuHuTian ~] ip addr
可以看到ip正常了。
測試宿主機ping虛擬機也正常了。
測試虛擬機ping虛擬機也正常了。
測試ssh本機也正。。。等等!
ssh沒通,報錯如下:
和最開始的報錯是一樣的,有了經驗,大致也猜測的出很有可能sshd服務也沒有自啟動。
輸入sshd啟動命令:
[root@RuHuTian ~] service sshd start
控制臺報錯信息:
/var/lock/subsys/sshd not group or world-writable
出現此報錯,整個系統問題已經初現端倪。
雖然啟動sshd服務報錯了,但嘗試ssh本機卻正常了。
此時試著啟動集群的各個進程。
果然,大量報錯。
只讀文件系統 幾個大字摧毀我幼小的心靈
想起解決的網絡、ssh問題,明白了罪惡的源頭就在....
就是它!萬惡之源!
首先查看掛載的分區:
[root@RuHuTian ~] mount
又有報錯,不過看不懂。猜測是mount命令相關的文件也被修改成只讀了。
開機報錯的/dev/sda1分區并沒有掛載,而/dev/sda3是正常的rw(讀寫)狀態。
我有點暈。
嘗試修復/dev/sda3分區:
[root@RuHuTian ~] fsck /dev/sda3
第一次使用fsck命令,看不太明白,不過該命令沒起到什么作用。
有點絕望,隨手嘗試了修改/dev/sda3分區的狀態:
[root@RuHuTian ~] mount -o remount,rw /dev/sda3
居然不報錯了!
至此報錯全部消失,網絡服務和ssh服務也正常開機自啟了。
留下懵逼的我,具體原理日后學習再補充。