二、Tesseract_OCR 合并字庫

1.前期準備工作:

? ? 1.需要生成的字符集? ? .tif文件,位置文件? ? ?.box文件

? ?現在有三個需要合并的字典

(1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)

(2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)

?(3).? (zwp83.test.exp0.tif,? zwp83.test.exp0.box)


box和tif文件


2.合并過程:

? 1、先生成相對應的 .tr 文件(如果你之前訓練的.tr 有的話,可以忽略這步)

? ?tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

? ?tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

? ?tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

生成.tr文件

2、從所有文件中提取字符

? ?unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

所有文件中提取字符

3、生成字體特征文件

? ?新建的font.txt文件,在文件中把所有box文件對應的字體特征都加進去(如果不知道,可以去原來考出來的字庫文件找font_properties文件查看)

? ?test 0 0 0 0 0

? ?test 0 0 0 0 0

? ?test 0 0 0 0 0

然后執行如下命令:

? ?mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

生成字體特征文件

4 、聚集所有.tr 文件

? ?cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

聚集所有.tr 文件

5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 這幾個文件加了前綴zwpnew. (目的是為了后面的聚集合并)

? ?rename normproto zwpnew.normproto

? ?rename inttemp zwpnew.inttemp

? ?rename pffmtable zwpnew.pffmtable

? ?rename shapetable zwpnew.shapetable

? ?rename unicharset zwpnew.unicharset

重命名文件

6、合并所有文件 生成一個大的字庫文件

? ?combine_tessdata zwpnew.

合并文件

7、最后文件夾中就可以看到生成的.traineddata訓練庫

.traineddata訓練庫


一 、Tesseract4.0訓練字庫

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容