這次作業碰到了挺多的問題,部分問題已找到答案,以注釋的形式出現在代碼中。
比如python magic命令,在之前確實未曾了解過這系列的神奇命令,想具體了解有哪些神奇之處可以戳進這篇博客 27 個Jupyter Notebook的小提示與技巧
同時在讀取csv文件時遇到了些問題,csv文件的編碼格式無法識別,導致文件中的數據無法讀取。之前遇到過這樣的問題,在此把解決辦法寫下:
1.打開csv文件,選擇文件 ——> 另存為txt文件,保存格式為unicode 文本
2.打開新生成的txt文件,此處最好用notepad++打開,選擇 格式 ——> 以utf-8格式編碼
3.修改編碼格式后,選擇文件另存為,此時另存為的文件名字、后綴與原有的csv文件均相同,覆蓋原來的文件即可
4.打開新生成的csv文件,python可正常讀取文件內的數據
在進行編碼過程中,也考慮了如何確定曲線的范圍,比如求取最大值與最小值,界定范圍以更好地分析。其次,在確定步進的時候也著實需要一步步嘗試。如圖可以看到范圍145~155,在最初按照課件的演示,確定步進為1的時候,整條正態曲線像是多條直線相連接的折線,整體非常“尖銳”。后在逐漸縮小步進后得到圖中教圓滑的曲線圖。另外,需要選擇適當數量的柱,bins的適當選取也是需要不斷地調整。
matplotlib中文顯示問題早已解決,如果想要徹底解決這個問題可以在小密圈里看我的發表,詳細介紹了步驟,有不懂的可以一起探討。
最后說一下對這個數據集的理解:如圖所示,可以看到大多數賽馬的賽跑時間分布在148~150區間,跑的特別快和特別慢的都占少數。《極簡統計學》這本書上寫到:數學家們證明了,在通過數學概率作出的硬幣透支直方圖中,在n充分大時,接近正態分布。
在樣本量足夠大時,且由很多單一的不確定現象復合而成的現象,如動物身長現象,股票價格的現象等,它們的數據分布大多數表現為正態分布。
以上。