有用過Uipath的Tesseract OCR功能的小伙伴都知道,系統默認的語言是英文“en”。對于中文操作環境來說,如果直接使用,出來的肯定是一堆亂碼。
Tesseract OCR.png
在Tesseract OCR的配置面板中,我們可以看到,其實是有一個配置項是來變更目標語言的。而對于各個語言,Tesseract都有一個對應的Language code. 例如:英語對應“en”,中文簡體對應“chi_sim”等等。
如何將language設置為其他的呢?其實只需要兩步,就可以完成。
1.下載語言包到Uipath本地運行環境
語言包下載路徑大家可以參考這兩個:https://github.com/tesseract-ocr/tessdata_best ,https://github.com/tesseract-ocr/tessdata,
lan.png
上面以traineddata結尾的文件,就是語言包,大家根據自己需要的進行下載。
locate.png
下載完成后,將其放置到uipath本地路徑。(路徑可能有所差異,大家根據實際情況調整)。如果在uipath下沒有“tessdata”這個文件夾的話,自己手動新建即可。
2.更改Tesseract OCR面板配置
language如何配置,其實只需要將我們下載下來的包名填充上去即可。例如我下載了chi_sim.traineddata, 那我將“chi_sim”填上去即可。
OK,Tesseract OCR的語言變更就這么多了,其實不難,只是有時候不知道從何下手,希望這個share可以讓大家少采坑。
如果覺得有用,不要忘記點贊哦_!