(作業都在這篇文檔中,每天更新,請保存一下地址,謝謝~)
提交作業方式:
第一組的同學,第一周(4.17~22)群內直接提問,截屏發自己的進度。
第二組的同學,要求把項目思路和結果寫成文章,發到專題。
推薦代碼提交到 github
2017-5-8 作業 18:
一組:1)文件讀寫,爬取數據寫入csv或Excel; 2) 爬取數據存入數據庫
二組:(晚上發布:最終項目)
2017-5-7 作業 17:
今天的作業是選做題,聽了昨晚的分享,你有什么筆記、感悟或思考,可以寫下來,仍然投到作業專題。
2017-5-6 作業 16:
推薦幾篇文章,使用大家整理復習。鼓勵大家多寫多總結。
- 阮一峰老師文章的常識性錯誤之 Unicode 與 UTF-8
- Python爬蟲基礎 | 字符串和編碼
- Python爬蟲基礎 | 爬蟲反ban的技巧
- 爬取知乎問題答案贊同最多數據--單線程完整版
- python爬蟲——知乎(關于python的精華回答)
- Selenium在異步加載中的應用
2017-5-5 作業15:
今天沒有新任務,整理
整理前一段時間的內容,進度和問題。
2017-5-4 作業14:
一組:MySQL基本操作, SQL語句
二組:整理了解基本的爬蟲防Ban措施
嘉賓分享提問收集。
2017-5-3 作業13:
一組 重點,理解結構化數據抓取,選取好循環點,分析網頁代碼,會調試。
010 - 使用BeautifulSoup和XPath抓取結構化數據
2017-5-2 作業12:
一組 本周內容:
BeautifulSoup和XPath
008 - 爬蟲處理流程及網頁解析
009 - 使用XPath解析網頁了解MySQL
二組 本周內容:
爬取兩個站點:微博和知乎,把知乎上Python學習的高分回答抓取下來。
2017-4-28 作業11:
整理一周進度,把遇到的問題寫下來,準備答疑交流。
2017-4-27 作業10:
一組內容:
從一小段代碼開始,理解爬蟲。007 - Python簡單爬蟲 - 正則表達式
需要的知識點:網絡請求,源代碼定位分析(HTML),正則表達式,Python網絡訪問庫,邏輯基礎。
需要說明的是,文章中代碼方式(urllib+正則匹配方式)不是后續寫爬蟲的主要方式。
二組內容:
開始提交項目代碼流程和結果分析。
2017-4-26 作業9:
一組內容:
1)了解HTML文檔結構
2)了解常用的HTML標簽 <a>,<img>,<p>,<div>,<ul>,<li>,<span>
3)了解url,分頁url的基本規律
4)了解HTTP請求響應的過程
2017-4-23 作業8:
一組:HTML基礎 & 正則表達式 (此內容2~3天)
了解HTML基本內容即可,HTML教程
正則表達式:
- 視頻學習
-
Python正則表達式指南
本周還要強化編程邏輯練習
二組:本周要爬取的站點兩個:拉鉤網(Python工程師崗位,數據分析師崗位),豆瓣讀書(比較 簡書-讀書,京東讀東,學習數據處理、分析方法)
2017-4-22 作業7:
群內集中答疑輔導
2017-4-21 作業6:
一組:完成 萬年歷邏輯功能,學習函數調用
集中答疑交流
二組:集中答疑交流,爬蟲流程分析,url分析
2017-4-20 作業5:
一組:完成 萬年歷的界面打印,學習函數定義、調用
二組:參考爬蟲小分隊二組作業題-20170420 ,把自己的代碼和疑問整理一下,包括進度方面的問題,周末綜合答疑。
2017-4-20 作業4:
一組:完成 循環語句
練習:求出1000以內的完全數有哪些
周六帶著大家對本周所有知識點進行梳理。
二組:作業項目截止提交,把爬取的思路、結果寫成文章,最好能加上一些對數據的處理和分析。
2017-4-19 作業3:
一組:完成 條件語言
練習:判斷一個年份是不是閏年
一組的進度,如果每天都完成比較快,可以往前趕,本周需要完成的任務:002 - Python 程序邏輯訓練3題
2017-4-18 作業2:
一組:完成變量和數據類型,操作符
二組:
第2組 簡書熱門文章數據(3天完成 4.18-20)
抓取簡書七日熱門數據,如果有時間加以分析
http://www.lxweimin.com/trending/weekly
爬取數據字段:
1.用戶
2.標題
3.閱讀量
4.評論量
5.獲贊量
6.打賞數
7.文章發表時間
(文章類別,來自哪個專題。選做)
數據保存為CSV或Excel
2017-4-17 作業1:
填寫提交學習情況調查表。
安裝Python和Python開發環境。
2017-4-16 作業0:
把自己學過的Python內容梳理一下(其他編程語言的情況也寫出來),之前學習中的問題、困難點都可以提出來,每天的學習時間安排,寫成文章,投到 Python爬蟲作業
剛剛開始學習的同學,看我簡書上000-002文章,了解嘗試安裝Python環境。