課程大綱
第一課 靜態網頁爬蟲:爬蟲的基礎技術
1. HTML
2. CSS 選擇器
3. JavaScript 介紹
4. lxml 及 XPath
5. Python 里的網絡請求
6. 高速位緩存設計:BloomFilter
7. 第一個爬蟲:螞蜂窩的游記
第二課 登錄及動態網頁的抓取
1. 表單
2. 網站登錄及Cookie
3. Headless 的瀏覽器:PhantomJS
4. 瀏覽器的驅動:Selenium
5. 動態網頁數據獲取
第三課 微博的抓取
1. 微博網站分布及結構分析
2. 通過動態頁面來抓取
3. 微博網絡接口的逆向分析
4. Java 的反編譯
5. 加密庫
6. 源代碼的接口分析
7. 利用API來抓取微博
第四課 多線程與過進程的爬蟲
1. 線程與進程
2. Python 的多線程約束
3. 多個線程同時抓取
4. 多個進程同時抓取
第五課 微博數據的存儲:分布式數據庫及應用
1. SQL 與 NoSQL
2. Hadoop 架構
3. HDFS
4. HBase
5. MongoDB
6. Redis
7. 基于分布式數據庫的分布式爬蟲
第六課 多機并行的微博抓?。悍植际较到y設計
1. Socket 編程
2. Master 設計
3. Slave 設計
4. 任務調度及通信協議
5. 分布式集群部署的爬蟲
第七課 分布式系統進階:復雜的分布式機制
1. 分布式應用協調服務:ZooKeeper
2. 分布式消息隊列管理:RabbitMQ/Kafka
3. 服務發布及注冊
4. 灰度升級
第八課 微博數據查詢:分布式數據庫系統的優化及負載均衡
1. 復制與分片
2. 流量控制及均衡
3. 分布式事物及鎖
4. Redis 的核心技術介紹
5. MongoDB 的關鍵技術
6. MySQL 的查詢過程介紹及優化要素
第九課 PageRank、網頁動態重拍及應對反爬蟲技術的手段
1. PageRank 計算模型及推導
2. 網頁抓取順序重排
3. 網站服務架構
4. 尋找與利用分布式服務器
5. 多IP技術與路由控制
第十課 驗證碼的處理,京東、淘寶的數據抓取及存儲案
1. 基于距離的圖片比
2. 基于 TesseractOcr 的數字識別
3. 其它驗證碼識別方
4. 京東數據抓取
5. 淘寶數據抓取
第十一課 網頁內容排重
1. SimHash
2. 海明距離
3. 海量數據的相似度計算
4. 網頁排重
5. 語義哈希簡介
第十二課 自動摘要及正文抽
1. 距離與聯合概率
2. 自動摘要
3. K-Means 算法
4. 基于Text/Tag 的正文計算
5. PyGoose 的開源系統
第十三課 網頁分類與針對文本的機器學習應用
1. 網頁分類基礎
2. 分詞與特征抽取
3. 線性回歸
4. SVM
5. Logistic Regession
6. 網頁分類
7. 多分類器
8. 詞向量簡介
第十四課 信息檢索、搜索引擎原理及應用
1. 搜索引擎架構介紹
2. 正排表與倒排表
3. Bool 模型
4. Vector 模型
5. 概率模型
6. TF/IDF
7. Elastic Search