1.項目目標
通過分析科比職業生涯比賽的相關數據,掌握Numpy, Pandas, Matplotlib, Seaborn等常用數據分析庫的用法,掌握常規的數據預處理的方法以及特征工程。掌握建立隨機森林模型,模型參數調整,構建最好的模型,預測測試數據,并保存測試數據的方法。
2.科比生涯簡介
不論你是否看NBA,都應該聽說過科比布萊恩特這個名字,它是最接近籃球之神喬丹的運動員。科比于1996年以13順位的選秀身份進入聯盟,一生都效力于洛杉磯湖人隊。于2016年宣布退役,職業生涯獲獎無數,5次NBA總冠軍,2次FMVP,1次MVP,4次AMVP,18次全明星,生涯總得分超33000分,未來的名人堂球員等。在今年的1月26日,科比乘坐的私人飛機不幸失事,科比和二女兒吉安娜永遠地離開了我們,這對無數球迷是一個莫大的打擊。雖然科比離開了我們,但曼巴精神將激勵著一代又一代的年輕人去追逐自己的夢想。
Kobe.jpg
3.該數據集簡介
該數據集收錄了自96賽季~2016賽季,科比整個職業生涯的比賽記錄,共有30697條數據。每一條數據都是一次出手記錄,其中包括動作類型,投籃類型,投射距離,投射位置,是否命中等25個特征。在該數據集中我們將以是否命中籃筐為標簽值來進行分析,帶有標簽值的數據共25697條。我們將以這25697條數據作為訓練數據進行建模,來對不帶標簽的5000條數據進行預測。
4.數據集中各列特征說明
列名稱 | 含義 |
---|---|
action_type | 動作類型,如跳投,扣籃,上籃 |
combined_shot_type | 組合投籃類型,如跳投,扣籃,勾手,擦板,罰球 |
game_event_id | 比賽的編號 |
lat | 出手的緯度 |
loc_x | 出手的x坐標 |
loc_y | 出手的y坐標 |
lon | 出手的經度 |
minutes_remaining | 距離比賽結束,還剩多少分鐘 |
period | 交手的場次,取值為1~7 |
playoffs | 是否是打季后賽 |
season | 賽季,如13~14賽季 |
seconds_remaining | 距離比賽結束,還剩多少秒 |
shot_distance | 出手距離 |
shot_made_flag | 是否命中 |
shot_type | 投射類型,兩分球還是三分球 |
shot_zone_area | 出手區域,左側,右側,中場,后場等 |
shot_zone_basic | 另一種劃分出手區域的方式,中線,禁區,油漆區,左側底角,右側底角等 |
shot_zone_range | 出手區域的距離,小于8英尺,816英尺,1624英尺,24英尺以上等 |
team_id | 球隊編號 |
team_name | 球隊名稱 |
game_date | 比賽日期 |
matchup | 對陣雙方 |
opponent | 對手 |
game_id | 比賽的編號 |
shot_id | 出手的編號 |
5.流程簡介
- 讀取數據并做簡單的描述性統計
- 探索性分析,單變量分析,雙變量分析
- 數據與處理和特征工程
- 建立隨機森林模型并進行調參,選擇最優參數
- 對測試數據進行預測,并保存模型結果
數據集和代碼請參考:
科比職業生涯數據集分析