微博爬蟲實操之后的總結

因為需要爬點數據,所以在github上面找了一個微博爬蟲項目:https://github.com/dataabc/weibo-crawler。我只是一個執行者,感謝這個項目的作者,謝謝,灰常感謝!感謝各位大神分享自己的經驗,謝謝,祝大家一生好運!!
總結起來就是:正確安裝好Python—pip和Python版本匹配—安裝requirements.txt中的模塊—運行腳本。

我!!!真的是各種坑都踩了遍,只能說還好沒有放棄,搞到凌晨一兩點·····痘痘沒白長。

首先在github上看這個項目的read me.md 和requirements.txt,對項目的過程以及要求有初步的了解。我所理解的就是下載相關模塊之后再運行腳本。有了目標,再一步一步解決相關要求。

第一步,下載跟電腦版本相匹配的Python,32位還是64位的,安裝的時候,一定要勾選下面的一個小框的path啥的!!!!一定要勾選!!一定要!因為很重要。
在gitbub上下載項目的源碼文件夾,然后解壓。

第二步,安裝好Python之后,按win+R打開運行,輸入CMD,回車enter
進入界面后,檢查Python、pip版本是不是匹配:按 python --version查看Python 版本,pip list 查看pip版本。
如果兩者版本不匹配,它會提示你升級pip版本,只需要按它的指令升級版本就行了:pip install --upgrade pip。
也可以直接git bash下載。這里講pip下載,其實都差不多。

第三步,下載requirements.txt中的模塊:pip install absl.py; pipi install requests; pip install tqdm; pip install lxml
如果pip install lxml裝不上的,就要先下載wheel安裝。具體步驟是:先從https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 這個網站上或者lxml官網上找到跟Python版本相同的下載,因為我的Python是3.9.1,電腦是64位,所以下載的是圖下面的版本:

image.png

下載后,回到界面安裝wheel :pip install wheel
安裝包wheel之后,進入lxml所在文件夾安裝:直接輸入lxml所在磁盤名稱,我的是G:磁盤,然后cd +lxml文件夾路徑,最后 pip install *****.whl(lxml的名稱)

安裝好以上之后,就可以按照read.md中的步驟運行 weibo.py了:在界面進入項目所在磁盤G:再cd +weibo.py所在文件夾路徑,最后輸入weibo.py就可以爬賬號了。記得在json文件中修改賬號。cd是指切換目錄。

只要Python安裝正確,基本上就沒有太大了的問題。

開始用cmd運行Python腳本失敗之后,我就用了下面的這個軟件


image.png

直接在anaconda中進入項目所在文件夾,運行Python weibo.py,然后按照它的提示一步一步操作,最后成功了。

這也給了我信心去重新解決cmd運行Python和bash 運行
最后也成功解決了。
其中運行會碰到timeout這個問題,是要改變pip源,直接pip install markdown -I https://pypi.tuna.tsinghua.edu.cn/simple(國內源網址,可以自己查)-I是i的大寫,不要搞錯了。

沒有任何Python基礎也可以爬微博了。因為前面Python可能沒有安裝正確,所以改環境變量也沒有用,浪費了很多時間。卸載干凈后重裝省事多了。

通過這件事,我只想到一句話,還好我沒有放棄。編程就是零和一,沒有中間地帶,它只會按設定的程序執行,所以生氣也是沒有的,只要根據提示去解決問題就好。一個問題一個問題的解決。一定要細心!!!!!
差不多就這樣了。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容