1.前期準備工作:
? ? 1.需要生成的字符集? ? .tif文件,位置文件? ? ?.box文件
? ?現在有三個需要合并的字典
(1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)
(2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)
?(3).? (zwp83.test.exp0.tif,? zwp83.test.exp0.box)
2.合并過程:
? 1、先生成相對應的 .tr 文件(如果你之前訓練的.tr 有的話,可以忽略這步)
? ?tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train
? ?tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train
? ?tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train
2、從所有文件中提取字符
? ?unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box
3、生成字體特征文件
? ?新建的font.txt文件,在文件中把所有box文件對應的字體特征都加進去(如果不知道,可以去原來考出來的字庫文件找font_properties文件查看)
? ?test 0 0 0 0 0
? ?test 0 0 0 0 0
? ?test 0 0 0 0 0
然后執行如下命令:
? ?mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr
4 、聚集所有.tr 文件
? ?cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr
5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 這幾個文件加了前綴zwpnew. (目的是為了后面的聚集合并)
? ?rename normproto zwpnew.normproto
? ?rename inttemp zwpnew.inttemp
? ?rename pffmtable zwpnew.pffmtable
? ?rename shapetable zwpnew.shapetable
? ?rename unicharset zwpnew.unicharset
6、合并所有文件 生成一個大的字庫文件
? ?combine_tessdata zwpnew.
7、最后文件夾中就可以看到生成的.traineddata訓練庫