Python 3 網絡爬蟲學習建議?

我還是傾向于使用”在趨勢中將會越來越火”的版本, 而非”目前已經很穩定而且很成熟”的版本. 這是個人喜好, 而且預測不一定準確. 但是如果Python3無法像Python2那么火, 那么整個Python語言就不可避免的隨著時間的推移越來越落后, 因此我想其實選哪個的最壞風險都一樣, 但是最好回報卻是Python3的大. 其實兩者區別也可以說大也可以說不大, 最終都不是什么大問題. 我選擇的是Python 3.

在 Windows 下如果安裝了 Python3, 那么在 cmd 下直接可以通過 pip 來安裝這兩個模塊, 命令如下:

pip install requests

pip install beautifulsoup4

在 Ubuntu 下安裝方法如下:

sudo apt-get install python3-pip

sudo pip3 install requests

sudo pip3 install beautifulsoup4

然后我們運行 Python3, 試一下是否能把這兩個模塊 import 進來, 就知道是否安裝成功了:

C:\Users\Liu>python

Python 3.4.2 (v3.4.2:ab2c023a9432, Oc

Type "help", "copyright", "credits" o

>>> import requests

>>> from bs4 import BeautifulSoup

>>>

Requests Module

Requests 是 Python 界大名鼎鼎的一個網絡庫, 其設計哲學是為人類而設計, 所以他提供的功能都非常的人性化. 他的方便對我而言主要有兩大點:

對 GET 和 POST 方法的封裝做的很好, 自動處理了編碼等問題;

默認開啟了 Cookies 處理, 在處理需要登錄的問題上面非常方便.

Requests 的方便之處不止這兩點, 還提供了諸如標準登錄接口之類的功能, 我們暫時用不上.

總而言之, 對于使用過 urllib 的我們來說, 用 requests 會感覺我們之前生活在石器時代. 第三方庫的強大就在于這里, 這也是 Python 這么火的重要原因.

BeautifulSoup Module

BeautifulSoup 大大方便了我們對抓取的 HTML 數據的解析, 可以用tag, class, id來定位我們想要的東西, 可以直接提取出正文信息, 可以全文搜索, 同樣也支持正則表達式, 相當給力.

小試牛刀

我們隨便抓取一個頁面, 然后用 soup 來解析一下試試他的威力:

>>> import requests

>>> from bs4 import BeautifulSoup

>>> response = requests.get("http://jecvay.com")

>>> soup = BeautifulSoup(response.text)

>>> print(soup.title.text)

Jecvay Notes - Good luck & Have fun

>>> print(soup.body.text)

改版策略: 技術博客的真正索引

上周, 我換掉了我博客的主題, 使用 BootStrap 框架自己寫了一個. 在自己動手寫博客主題之前,

我時常時不時到后臺主題商店去翻一翻, 想要發現更好看的主題. 挑選有兩種:

在一大堆展示面前, 快速瀏覽, 看到亮眼的就仔細看一看是否滿意;

自己想好一個目標, 然后用篩選器(或者人肉)篩選出來.

閱讀全文 >> (...省略若干)

>>> for x in soup.findAll("a"):

...? print(x['href'])

...

http://jecvay.com/2015/02/the-real-index-of-tech-blog.html

http://jecvay.com/2015/02/the-real-index-of-tech-blog.html

http://jecvay.com/2015/01/wordpress-super-cache.html

http://jecvay.com/2015/01/learning-vps-3.html

http://jecvay.com/2015/01/nobot-anti-webspider.html

http://jecvay.com/2015/01/learning-vps-2.html

http://jecvay.com/2014/12/learning-vps-1.html

http://jecvay.com/2014/11/what-is-min-cut.html

http://jecvay.com/2014/11/compiler-makes-fast-build.html

/about-me

/archive


還有:What's IDE?

IDE 是什么鬼?這是很多人決定入門編程時候的一個問題,好不容易在電腦上安裝了語言,結果發現好需要配置一個 IDE,往往為了搞個 IDE 太麻煩而直接放棄了編程的入門。今天我給大家介紹一種對于寫爬蟲程序最為簡單有效的 IDE 搭建方式。

IDE(集成開發環境)

一般 IDE 就是指一個開發環境,C++有 C++的特定開發環境,或者說特定的開發軟件,python 也有 python 對應的python IDE,不過目前網絡上的 IDE 非常多,有的又非常復雜。

一般來講一個 IDE 需要具備的幾項功能:

1. 編輯器 - 一個能讓你寫代碼、保存代碼的地方

2. 編譯 - 就是將編程語言轉化為計算機可以理解的匯編語言(把 python 轉化成二進制)

3. 調試 - 可以理解為在語法上將程序跑通,并且能夠在出錯時,告訴你是哪里出錯,原因是什么

4. 運行 - 讓你的程序直接在 IDE 環境中運行

如何配置

廢話不多說了,直接重磅推薦一個編輯器:sublime Text ,點擊直接下載。

sublime特點

支持各種語言。sublime 其實就是一個編輯器,類似于電腦的上的記事本(txt 格式的),sublime 支持編輯各種類型的語言,php、python、html等語言都可以在 sublime 上編輯。

輕。sublime 極為輕巧,幾乎不占多少內存(最為難得)

易上手。 沒有極為復雜的設置選項,界面親民

玩法強大。sublime 對于愛折騰的開發者來說,可謂擴展性極強。sublime 官方提供非常豐富的插件,可以讓你在編輯代碼時的效率大為提高(當然對于初學者來說簡單了解下就好)。

最后:


自己多問下為什么學python

如果一門語言沒有改變你的編程思維,那么它不值得你去學習”。如果這么說,我們大學的時候,學習了c,c++,java,C#,算是值得學習么?很多時候是不值得,我覺得我們大學的課程就是用java,c#,c++把"C程序設計"又上了一遍.

這是因為,學校的老師會C和java之類的,所以要跟著規矩開這門課,(這也就是為什么,許多學校還在教vb,),這也就是為什么,你所以為的一樣就是大家都有For都有while,都有switch..都有Class...都有int 都有float,所謂的不一樣就是用C有指針,java沒有,這就是為什么教育是失敗的,這也就是為什么,我目前認識的幾個編程大牛

python的優點:簡單 我所說的簡單,是相比于象C和C++這樣的語言,你為了編程,要學習許多偏底層的東西.在比如,你在學習一個新的編程范式,或者想要馬上做個例子看看,試驗某個API,如果你是寫java的,你不得不去寫一個main,寫一些構造,即使有IDE這樣的東西,能夠為你帶來代碼生成器,而我做得就是寫一段“腳本”,或者打開python交互式解釋器就行了。

自己認識的python朋友出去工作,工資比較高,然后自己又剛剛好是會python所以選擇學習python,這樣的人比較危險但是也比較有激勵,還有就是覺得python比其他開發語言好用。

學完python前景會咋樣

其實我個人是很看好python未來的就業前景的,因為我認識太多的工程師都已經在學python,很多都是月收入大幾萬的

我個人也并非一直用python。前些年主要用c/c++以及java開發一些通信,移動系統,互聯網通信。近3年開始才轉向python。坦白的說,這可能與你相處的公司以及環境不大一樣。隨便舉個例子,google的protocol buffer協議一出來就具有c++/python/java三種語言支持。google的廣告系統早在03,04年左右就一并對python進行了webservice支持,大部分涉及基礎核心系統的公司,都開始對python進行了擴展支持。甚至開源社區的postgresql數據庫,除了自身的ansi SQL,pgsql,pg/TCL,PG/PERL之外對python進行了內嵌支持,唯獨卻沒有呼聲很高的java。在FREEBSD(MIT)/LINUX(GPL)平臺上,對java可能排斥性比較大,但綜合而言,目前python發展還沒有java那種普及,主要是python大部分工作仍然是在較為深入地系統層和框架層做設計開發,例如django,SQLAlchemy,fail2ban,mail郵件系統,twisted等等。這部分對于那種習慣應用前輩們框架的編碼人員而言,缺乏創造力的他們根本無法適用這種開發。尤其在python涉及一些系統層面需要有較強的c/c++能力,這部分人在國內要么就累得要死沒時間,要么就啥都不會就會拷貝代碼,而國內公司也鮮有主動去做這部分基礎勞動的,大多都是等別人做好了在直接拿來用,所以造就了任何技術性的東西出來,國內都是先等等看,然后抄襲應用。

大環境如此,但千萬誤認為先等等看吧。對于一個技術人員而言,缺乏對新技術的渴望與熱情,這是一種非常危險的事情。我工作8年了,按照國內很多的人的說法早已不做代碼了,但又一次在聽一個老外的演講,他說他50多歲仍然每天堅持寫代碼,了解最新的動態,所以他才能做到他們公司的首席科學家,因此它才能時刻指導項目團隊前進并保證項目的質量。他坦言對于一個不寫代碼并且不了解最新的技術動態的技術人員或者技術團隊的負責人而言,這種團隊也就足夠做作小項目,一旦壓力和項目過大,就會有很多問題漏出來。

對于新人而言,無論學習什么技術,都要以鼓勵的姿態出現。太多用薪水和你個人所看到的現狀去衡量一門技術,那絕對是欠缺眼光的。任何一門技術,一旦有人學習,他有可能逐漸成為這個領域的專家,即便再濫再沒有人用的開發語言技術,他也有可能就是明日的奠基者或者大師。

自己如何確定目標

在生活中學會不斷挖掘自己的潛力。我們都是一個普通人,可能并不清楚自己到底在哪方面占有優勢。所以,學著在生活中找到自己的優勢,并根據優勢選擇一定的就業方向。

不隨波逐流。不要看周圍的人做什么,自己就做什么,也許別人做的并不適合你。別人的優勢很可能會成為你的劣勢。所以,堅定自己的想法,讓自己知道那些方面適合自己,自己可以勝任。

不斷嘗試可能成為自己的優勢。你不知道什么適合自己,所以才要大膽、勇敢地嘗試。找到一種可以屬于你的獨特的優勢。

堅定信念。一旦你堅定了自己的信念,就不要被別人的意見或是諷刺或是嘲笑所干擾。別人不是你,不懂的你在想什么,不清楚你開始這件事的源頭。你的事情,不了解你的人,沒有資格輕易評說。

不茫然,不多想。別讓太多的事干擾到你奮斗下去的信念。夢想不容許太多的雜念。那些雜念只會讓你的心愈來愈脆弱,多為一個人考慮,到頭來,傷害的還是自己。

選擇自己學習方法

每個人都有適合自己的方法,有的人去選擇自學,有的人選擇看視頻學習,有的人選擇報名培訓班,那在這個時候,你就要自己考慮清楚,到底那樣對的幫助是最大的,個人覺得是跟著培訓班最好的,畢竟人家的實戰項目多,我們學軟件開發的都知道實戰項目對于學好一門語言是 很重要的。

學習python有那些誤區

具體里面的誤區非常的多,那些就不需要我去寫出來,我給你說的一般都是心態的問題,首先一個覺得自己會java和c++,然后我學習python就很牛,但是你要知道語言是有很多相同的地方,但是不是通用,一定要自己學習的仔細。還有一種就是覺得我不會英語,我要先去把英語學習好在來學python。因為自己想還壞主意然后學習,這樣的都是容易找進誤區的。

怎么樣才能學好python

學好python你需要一個良好的環境,一個優質的開發交流群,群里都是那種相互幫助的人才是可以的,我有建立一個python學習交流群,在群里我們相互幫助,相互關心,相互分享內容,這樣出問題幫助你的人就比較多,群號是304050799,這樣就可以找到大神聚合的群,如果你只愿意別人幫助你,不愿意分享或者幫助別人,那就請不要加了,你把你會的告訴別人這是一種分享。

感覺寫的好,對你有幫助,就點個贊唄,別光只收藏哈.~( ̄▽ ̄)~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,701評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,694評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,026評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,193評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,719評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,442評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,668評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,846評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,394評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容

  • 你的想法再精彩,那是想法的價值 而你的價值,永遠體現在行動之中 如果還停留在想的價值中,請趕快行動, 如果你學習還...
    蝴蝶蘭玫瑰閱讀 925評論 0 1
  • GitHub 上有一個 Awesome - XXX 系列的資源整理,資源非常豐富,涉及面非常廣。awesome-p...
    若與閱讀 18,695評論 4 418
  • # Python 資源大全中文版 我想很多程序員應該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,537評論 6 427
  • 環境管理管理Python版本和環境的工具。p–非常簡單的交互式python版本管理工具。pyenv–簡單的Pyth...
    MrHamster閱讀 3,819評論 1 61
  • 沒想到這么快就到2016年了,6月,我們將背上書包踏上征途,面臨人生的分岔路,回過頭,他們卻早已消失在人海中。 ...
    仲夏夜之興閱讀 328評論 1 1