#多看賽經,還有決賽答辯。
#參與練習賽
#EDA數據可視化探索
EDA最大的作用是發現一些異常數據,并可以重新賦值。
其次是得到一些啟發。這個啟發很微妙因為并不知道會得到什么啟發。
#關于解決過擬合
1不要輕易對A榜提交csv做集成。不要玩火。
2 這個世界是存在一些特征工程,通過轉換差分target的方法,來增加數據來解決過擬合的。
3 不要迷信調參。大部分調參是無用的,少部分提升一點點的成績。關注數據和特征更加重要。手動調參和自動調參本質上沒有區別。
4 大部分情況下,正則化都有用。
#如果某次比賽沒有拿到好名次。不一定是你的實力問題,還有可能是運氣問題。但是只要是比賽,細節性的東西一定要注意。你越細心,運氣越好。
賽經搜集
#https://zhuanlan.zhihu.com/p/43691981
該文主要是以下觀點
把數據轉換成圖像
? ? 原始數據轉換成圖像,并把前n位像素作為特征。這是Kaggle競賽中出現的令人驚嘆的特征工程之一。
Meta-leaks
? 能發現數據泄漏的情況,代表數據探索分析做的好
表征學習特征
均值編碼
轉換目標變量
? ? 改變目標變量分布 log(1+目標)和? 轉回 predictions = np.exmp1(log_predictions)。
#https://jizhi.im/blog/post/kaggle_silver
git 上有ppt
四則運算
時間段特征
地理位置特征
? 聚類
文本特征
稀疏型特征
稀疏型特征