1、Python二手房數(shù)據(jù)分析之?dāng)?shù)據(jù)清洗

抓取的數(shù)據(jù)文件
抓取的數(shù)據(jù)

數(shù)據(jù)清洗前的準(zhǔn)備工作:

粗略看一遍數(shù)據(jù),我們大致要做的數(shù)據(jù)處理有以下幾點(diǎn)(使用工具為anaconda和jupyter Note book):

1、由于文件有多個(gè),我們第一步就是要將文件進(jìn)行合并;

2、抓取下來(lái)之后deal_time和last_time的數(shù)據(jù)不是很干凈,所以我們選擇從time_list當(dāng)中提取出這兩個(gè)日期(并計(jì)算到掛牌時(shí)間到今天相隔幾天);

3、view列的數(shù)據(jù)需要分成三列(取前兩列關(guān)注人數(shù)和帶看次數(shù));

4、面積數(shù)據(jù)要轉(zhuǎn)換成數(shù)字;

5、裝修風(fēng)格取精裝、簡(jiǎn)裝和其他字段,平層和復(fù)式由于數(shù)據(jù)缺失比較多這一指標(biāo)就不考慮了;

6、年份里有‘未知年建\’字段,這個(gè)需要處理成‘未知年建’;

7、數(shù)據(jù)清洗前要?jiǎng)h除deal_time和last_time和totalcount(總的帶看次數(shù),網(wǎng)頁(yè)在詳情頁(yè)處都是顯示0,所以這一數(shù)據(jù)從view列里獲取)列;

8、area_subinfo列的樓型有較多的缺失數(shù)據(jù)(錄入的時(shí)候沒(méi)有錄入),把缺失數(shù)據(jù)都用其它填充;

9、price和total_price的價(jià)格單位不一樣需要注意;

10、數(shù)據(jù)清洗完成之后用漢字作為列名以便更具有可讀性。

這就是我們?cè)陂_(kāi)始正式的數(shù)據(jù)清洗之前的大致思路和準(zhǔn)備工作。


接下來(lái)我們開(kāi)始數(shù)據(jù)清洗:

1、讀取和拼接多個(gè)文檔的數(shù)據(jù):

讀取和拼接多個(gè)表格

使用的是os.path.join的方法。


2、提取time_list列的兩個(gè)日期

提取time_list列的兩個(gè)日期
把兩列日期加入到df列表里

處理后新的兩列日期如圖:

新的兩列日期

這樣我們就完成了兩列日期的數(shù)據(jù)處理。

3、view列的三組數(shù)據(jù)的分列

分列

把分開(kāi)的列重合合并到df里:

合并

列名顯示的是0,1,2,可以更改列名,我們等到后面統(tǒng)一更改。

4、面積數(shù)據(jù)要轉(zhuǎn)換成數(shù)字


面積數(shù)據(jù)要轉(zhuǎn)換成數(shù)字


5、裝修風(fēng)格提取

裝修風(fēng)格提取


6、建筑年份數(shù)據(jù)清洗

建筑年份數(shù)據(jù)清洗


7、清洗建筑類型

填充缺失值和替換


8、選出關(guān)注人數(shù)和帶看兩列的數(shù)字

選出關(guān)注人數(shù)和帶看兩列的數(shù)字


9、接著進(jìn)行重命名索引和列名


重命名索引和列名

10、獲取當(dāng)前日期和把數(shù)據(jù)轉(zhuǎn)換成日期格式(使用pd.to_datetime)

獲取當(dāng)前日期:datetime.datetime.now().strftime('%Y-%m-%d')

獲取當(dāng)前日期和把數(shù)據(jù)轉(zhuǎn)換成日期格式


11、刪除有空值的行

刪除有空值的行

12、把數(shù)值部分的列轉(zhuǎn)換為浮點(diǎn)數(shù)

把數(shù)值部分的列轉(zhuǎn)換為浮點(diǎn)數(shù)


13、選取出我們需要的列并導(dǎo)出數(shù)據(jù)

導(dǎo)出清洗好的數(shù)據(jù)

這樣,整個(gè)數(shù)據(jù)清洗的過(guò)程就基本完成了,下一步我們將進(jìn)行相應(yīng)的數(shù)據(jù)分析,進(jìn)行數(shù)據(jù)分析之前也一樣要選出我們想要看到的指標(biāo)和做出的效果。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評(píng)論 6 546
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,814評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,980評(píng)論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 64,064評(píng)論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,779評(píng)論 6 414
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 56,109評(píng)論 1 330
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評(píng)論 3 450
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,287評(píng)論 0 291
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,799評(píng)論 1 338
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,515評(píng)論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,750評(píng)論 1 375
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,933評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,327評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,667評(píng)論 1 296
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,492評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,703評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容