上次服務器跑 code是二個月之前了,這次跑程序,配環境配了一下午,裝了卸,卸了裝,在之前各種筆記中徘徊,這次做一個總結,以減少之后的落坑時間(還沒調好,心累 = = 菜如狗):
Step 1:
首先,我們簡要的查看一下系統當前狀態,這里是PC端預備(一):GPU信息查看,其實就是:nvidia-smi,來看看有沒有人在跑程序,占了哪些卡。接著,需要查看查詢cuda 版本:nvcc -V?
如果系統內存占用過多,可服務器安裝(七):占用GPU內存過多,通過du?-lh?--max-depth=1 查看當前目錄下一級子文件和子目錄占用的磁盤容量 conda? clean? -p 刪除沒有用的包,conda clean -t ;conda clean -y -all 依次進行清除 = =
如果需要源 PC端預備(一):源查找、刪除、添加,可分別添加,移除:conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/? ||||and ||| conda config --remove-key channels
Step 2:
為code配置特定環境服務器系列(一):多版本Python(Anaconda管理)首先查看已有conda: conda --version,再查看python的環境:conda info -envs,如果需要添加新環境:conda create --name python27 python=2.7,這時候可以再次確認python新環境:conda info -envs 以及當前的python版本:python --version,如果確認使用該環境,通過 conda activate python27即可激活。為了防止系統內存占用過多,使用完畢后可以對envs環境進行移除:conda remove --name python27 --all。
此外,還可以通過conda list查看所有的packages,如果對特定的包進行移除和升級,采用 conda install numpy==1.10;conda remove numpy;conda update numpy;如果想更新conda這種,可以用:conda update conda。如果想全部更新,可以用:conda update --all
接著,需要?服務器安裝(二):conda安裝tensorflow和conda常用命令 ,具體地,通過 conda search tensorflow-gpu 查看各個版本,之后利用 conda/pip install tensorflow-gpu==1.x.x,如果需要更新,可以根據conda update xxx or conda remove xxx進行更新或者移除。
有時候,如果系統有點小笨,可能要特別地指定安裝路徑,即使用pip install 命令時指定安裝路徑,實際操作為:pip install --target=/home/mdd/anaconda3/envs/python37/lib/python3.7/site-packages torch torchvision,可參考 服務器安裝(二):指定文件位置安裝pytorch
此外,有時候系統可能會報錯:服務器系列(一):ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory ,這是因為tensorflow等框架與CUDA版本不匹配,需要對應的下載匹配版本:【查看cudnn版本】https://blog.csdn.net/baidu_32936911/article/details/79774289 【tensorflow與cuda對應關系】https://tensorflow.google.cn/install/source。如果想更換cuda版本,參考服務器安裝(六):cuda 2nd來配置新conda。
查看python:which python 查看tensorflow版本:pip show tensorflow-gpu
之后,這里還需要服務器系列(一):vim .bashrc進入vim編輯界面之后如何退出來改變環境變量,可能用到的是vim ~/.bashrc進入,Esc + :+ wq退出并保存修改之后的文件,source ~/.bashrc更新 .bashrc。其他的,:q!? 若曾修改過檔案,又不想儲存,使用 ! 為強制離開不儲存檔案。:q? ? 離開 vi (常用)等等。
%--------------------------------祝我好運吧------------------------畢業加油------------------------
作為菜鳥不停配環境 下torch多次失敗 import torch都不行
報錯:from torch._C import * ImportError: DLL load failed: 找不到指定的模塊。
解決辦法:
torch 無法使用(torch 0.4.0,python3.6.8, cuda9.0, cudnn7.3.1)
使用命令conda install numpy pyyaml mkl cmake cffi
參考自:from torch._C import * ImportError: DLL load failed: 找不到指定的模塊。