HDFS小文件合并時遇到的幾個小問題

1. 如何“非正則”地遍歷一個目錄下某些特定的文件?

在spark中newHadoopAPI()或者FSShell其實都是支持正則話輸入路徑的,不要怕輸入的路徑太長,一定要正則化輸入路徑;

2. 在讀取->repartition->重新再寫入的過程中,遇到序列化失敗該如何處理?

盡量使用kyro序列化,兼容性還是比較好;
同時注意null值的處理;

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容