003 - 『Python爬蟲小分隊』作業布置 -- 持續更新

(作業都在這篇文檔中,每天更新,請保存一下地址,謝謝~)

提交作業方式:

第一組的同學,第一周(4.17~22)群內直接提問,截屏發自己的進度。
第二組的同學,要求把項目思路和結果寫成文章,發到專題。
推薦代碼提交到 github


2017-5-8 作業 18:
一組:1)文件讀寫,爬取數據寫入csv或Excel; 2) 爬取數據存入數據庫
二組:(晚上發布:最終項目)


2017-5-7 作業 17:
今天的作業是選做題,聽了昨晚的分享,你有什么筆記、感悟或思考,可以寫下來,仍然投到作業專題。


2017-5-6 作業 16:
推薦幾篇文章,使用大家整理復習。鼓勵大家多寫多總結。


2017-5-5 作業15:
今天沒有新任務,整理
整理前一段時間的內容,進度和問題。


2017-5-4 作業14:
一組:MySQL基本操作, SQL語句
二組:整理了解基本的爬蟲防Ban措施

嘉賓分享提問收集。


2017-5-3 作業13:
一組 重點,理解結構化數據抓取,選取好循環點,分析網頁代碼,會調試。
010 - 使用BeautifulSoup和XPath抓取結構化數據


2017-5-2 作業12:
一組 本周內容:

二組 本周內容:
爬取兩個站點:微博和知乎,把知乎上Python學習的高分回答抓取下來。


2017-4-28 作業11:
整理一周進度,把遇到的問題寫下來,準備答疑交流。


2017-4-27 作業10:
一組內容:
從一小段代碼開始,理解爬蟲。007 - Python簡單爬蟲 - 正則表達式
需要的知識點:網絡請求,源代碼定位分析(HTML),正則表達式,Python網絡訪問庫,邏輯基礎。

需要說明的是,文章中代碼方式(urllib+正則匹配方式)不是后續寫爬蟲的主要方式。

二組內容:
開始提交項目代碼流程和結果分析。


2017-4-26 作業9:
一組內容:
1)了解HTML文檔結構
2)了解常用的HTML標簽 <a>,<img>,<p>,<div>,<ul>,<li>,<span>
3)了解url,分頁url的基本規律
4)了解HTTP請求響應的過程


2017-4-23 作業8:
一組:HTML基礎 & 正則表達式 (此內容2~3天)
了解HTML基本內容即可,HTML教程
正則表達式:

二組:本周要爬取的站點兩個:拉鉤網(Python工程師崗位,數據分析師崗位),豆瓣讀書(比較 簡書-讀書,京東讀東,學習數據處理、分析方法)


2017-4-22 作業7:
群內集中答疑輔導


2017-4-21 作業6:
一組:完成 萬年歷邏輯功能,學習函數調用
集中答疑交流

二組:集中答疑交流,爬蟲流程分析,url分析


2017-4-20 作業5:
一組:完成 萬年歷的界面打印,學習函數定義、調用

二組:參考爬蟲小分隊二組作業題-20170420 ,把自己的代碼和疑問整理一下,包括進度方面的問題,周末綜合答疑。


2017-4-20 作業4:
一組:完成 循環語句
練習:求出1000以內的完全數有哪些
周六帶著大家對本周所有知識點進行梳理。

二組:作業項目截止提交,把爬取的思路、結果寫成文章,最好能加上一些對數據的處理和分析。


2017-4-19 作業3:
一組:完成 條件語言
練習:判斷一個年份是不是閏年
一組的進度,如果每天都完成比較快,可以往前趕,本周需要完成的任務:002 - Python 程序邏輯訓練3題


2017-4-18 作業2:
一組:完成變量和數據類型,操作符

二組:
第2組 簡書熱門文章數據(3天完成 4.18-20)

抓取簡書七日熱門數據,如果有時間加以分析
http://www.lxweimin.com/trending/weekly

爬取數據字段:
1.用戶
2.標題
3.閱讀量
4.評論量
5.獲贊量
6.打賞數
7.文章發表時間
(文章類別,來自哪個專題。選做)
數據保存為CSV或Excel


2017-4-17 作業1:
填寫提交學習情況調查表。
安裝Python和Python開發環境。


2017-4-16 作業0:
把自己學過的Python內容梳理一下(其他編程語言的情況也寫出來),之前學習中的問題、困難點都可以提出來,每天的學習時間安排,寫成文章,投到 Python爬蟲作業

剛剛開始學習的同學,看我簡書上000-002文章,了解嘗試安裝Python環境。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,247評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,520評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,362評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,805評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,541評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,896評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,887評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,062評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,608評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,356評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,555評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,077評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,769評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,175評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,489評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,289評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,516評論 2 379

推薦閱讀更多精彩內容