
自己的機器配置太慢了,所以打算在ec2上搭環境跑。可惡昨天居然搭了一天!記錄一下主要碰到的問題 ec2上有8個gpu,結果code只能拿到一個g...
這兩天仔細看了下分布式pytorch的文檔…起因是跑分布式pytorch的時候,在training的最后一個epoch掛掉了首先在最后一個epo...
最近碰到pytorch分布式訓練時候,memory幾乎線性增加,撐炸機器的問題。pytorch中內存泄漏常見的原因大概是以下幾點: 不恰當的lo...
這兩天弄訓練數據的時候碰到了一個大坑本來數據集就比較大,在劃訓練樣本的時候,訓練樣本的分布就出現了不均勻的情況(有的parition多,有的少)...
可能是需要加機器,或者選擇升級機型 當然,以上在正常情況下不是最好的解決辦法。當初的我通過加大機型直接繞開了問題…worker失聯很有可能是因為...
比如team最近在做新的version,某天該version code freeze了,但是你發現你最新的commit居然在code freez...
今天用spark的時候碰到的問題,直接對一個大的dataframe做agg,導致buffer超了。可以人為的在dataframe上append一...
最近在調研embedding的方法,重新學習了一下word2vect,深感自己有很多不足…在看xin rong博士的paper:https://...
出現這個問題是因為在parquet數據中,有的column數據類型不一致。發現這個問題是在load data的時候。如果 load 的數據是多路...