Linux報錯只讀文件系統(集群非法關機、斷電)踩坑

錯誤原因

出現錯誤的原因是由于我突發奇想寫了一個reboot集群的腳本,導致集群非法關機,然后就炸了。。。

錯誤表現、解決過程

在我使用上述reboot腳本后,發現MobaXterm(遠程工具)ssh死活連不上了。
趕緊檢查集群,發現如下報錯:


開機報錯

由于心急沒有管報錯(第一次見看不懂),直接輸密碼進入界面(我的是無可視化界面的CentOS 6.5)。

進界面后首先嘗試ssh其他節點。報錯。



嘗試從宿主機ping虛擬機,也ping不通。

那么首先確定網絡問題,查看/etc/sysconfig/network-scripts/ifcfg-eth0下的ip配置。
沒有問題。

輸入命令查看ip:

[root@RuHuTian ~] ip addr
控制臺信息

發現只有127.0.0.1,此時基本確定網絡服務故障或未自啟動。
輸入命令啟動網絡服務:

[root@RuHuTian ~] service network start
[root@RuHuTian ~] ip addr

可以看到ip正常了。

測試宿主機ping虛擬機也正常了。

測試虛擬機ping虛擬機也正常了。

測試ssh本機也正。。。等等!


ssh沒通,報錯如下:


image.png

和最開始的報錯是一樣的,有了經驗,大致也猜測的出很有可能sshd服務也沒有自啟動。

輸入sshd啟動命令:

[root@RuHuTian ~] service sshd start

控制臺報錯信息:
/var/lock/subsys/sshd not group or world-writable

出現此報錯,整個系統問題已經初現端倪。

雖然啟動sshd服務報錯了,但嘗試ssh本機卻正常了。

此時試著啟動集群的各個進程。

果然,大量報錯。


只讀文件系統報錯

只讀文件系統 幾個大字摧毀我幼小的心靈

想起解決的網絡、ssh問題,明白了罪惡的源頭就在....

就是它!萬惡之源!

燕返

首先查看掛載的分區:

[root@RuHuTian ~] mount

又有報錯,不過看不懂。猜測是mount命令相關的文件也被修改成只讀了。

開機報錯的/dev/sda1分區并沒有掛載,而/dev/sda3是正常的rw(讀寫)狀態。

我有點暈。

嘗試修復/dev/sda3分區:

[root@RuHuTian ~] fsck /dev/sda3

第一次使用fsck命令,看不太明白,不過該命令沒起到什么作用。

有點絕望,隨手嘗試了修改/dev/sda3分區的狀態:

[root@RuHuTian ~] mount -o remount,rw /dev/sda3

居然不報錯了!

至此報錯全部消失,網絡服務和ssh服務也正常開機自啟了。

留下懵逼的我,具體原理日后學習再補充。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。