題庫特殊字符語言包訓練流程(新)
上篇文章介紹了一些特殊字符語言包的訓練流程,然而沒過幾天,github上的tesseract源碼有了較大的改動,包括wiki里面的教程文檔也有了相應的變更。于是今天介紹一下適應于新代碼的訓練流程。
準備訓練依賴項
依次在終端輸入以下命令:
- git clone https://github.com/tesseract-ocr/tesseract.git
- git clone https://github.com/tesseract-ocr/langdata.git
- git clone https://github.com/tesseract-ocr/tessdata.git
- cp ./tessdata/best/eng.traineddata ./tesseract/tessdata
- cp ./tessdata/best/chi_sim.traineddata ./tesseract/tessdata
- cp ./tessdata/best/chi_sim_vert.traineddata ./tesseract/tessdata
下載tesseract包后需要本地安裝,可看前面發布的安裝教程:Tess4.0 windows編譯與使用,tesseract linux 安裝與編譯。
添加新字符
到./langdata/chi_sim/chi_sim.training_text文件中添加新的字符,例如:'≤'。本例添加50個≤到chi_sim.training_text文件中。
生成新的訓練數據
training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainspecial
training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--tessdata_dir ./tessdata \
--fontlist "SIMSUN" --output_dir ~/tesstutorial/evalspecial
scratch訓練
export SCROLLVIEW_PATH=$PWD/java
mkdir -p ~/tesstutorial/specialoutput
training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,0,0,1 Ct5,5,16 Mp3,3 Lfys64 Lfx128 Lrx128 Lfx384 O1c5000]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--max_iterations 3600 &>~/tesstutorial/specialoutput/basetrain.log
finetune訓練
training/combine_tessdata -e tessdata/best/chi_sim.traineddata \
~/tesstutorial/trainspecial/chi_sim.lstm
training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
--continue_from ~/tesstutorial/trainspecial/chi_sim.lstm \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--old_traineddata tessdata/best/chi_sim.traineddata \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--max_iterations 3600
合并訓練結果
finetune訓練合并
training/lstmtraining --stop_training \
--continue_from ~/tesstutorial/trainspecial/special_checkpoint \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--model_output ~/tesstutorial/trainspecial/chi_sim_special.traineddata
新生成的chi_sim_special.traineddata在~/tesstutorial/trainspecial目錄下。
scratch訓練合并
training/lstmtraining --stop_training \
--continue_from ~/tesstutorial/trainspecial/special_checkpoint \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--model_output ~/tesstutorial/specialoutput/chi_sim_special.traineddata
繼續訓練
如果合并后測試的結果不夠理想,可以利用以下命令繼續訓練
fine tuning繼續訓練
training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
--continue_from ~/tesstutorial/trainspecial/special_checkpoint \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--old_traineddata tessdata/best/chi_sim.traineddata \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--max_iterations 10000
scratch 繼續訓練
export SCROLLVIEW_PATH=$PWD/java
training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,36,0,1 Ct3,3,16 Mp3,3 Lfys48 Lfx96 Lrx96 Lfx256 O1c111]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--continue_from ~/tesstutorial/specialoutput/base_checkpoint \
--max_iterations 10000 &>~/tesstutorial/specialoutput/basetrain.log
注意:這里的max_iterations的取值要大于第一次的訓練值。例如,本次的max_iterations 10000大于3600。