有一年沒有更新文章了,最近一年一直在惡補如何做數據分析和數據挖掘知識,現在把這一年的經驗成果分享給大家。
最近一段我先教給大家如何數據獲取的方法,大家聽到數據抓取,可能想這個需要專業編程能力,告訴你們不需要編程也可以自動抓取數據。
今天教大家使用excel就可以抓取網站的數據,而且還可以設置自動更新數據,本次拿一個空氣質量數據網站作為數據爬蟲源。
第一步:你裝上一個office軟件
第二步:新建一個excel,并打開
第三步:切換到數據選項卡,點擊“自網站”
第四步:輸入需要爬取的網頁url
第五步:選擇需要加載的數據并加載
以上幾個步驟就完成了一個網站數據導入
高級技能:
1.設置數據自動刷新
選擇設計選項卡,點擊刷新里面的“連接屬性”
勾選“刷新頻率”并設置刷新時間(默認是60分鐘)
2.有的網站數據被設置反爬機制,數據抓取可能需要復雜的設置,可以在“自網站”中切換到“高級”標簽里,里面可以設置一些http請求標頭等參數。后面一些文章我會一一交給大家如何使用高級編輯。
今天就先給大家介紹到這里,文章寫的太爛請多多包涵,請期待我下一篇吧。