Tesseract的安裝與使用
tesseract下載地址:https://digi.bib.uni-mannheim.de/tesseract/
安裝完成tesseract-ocr后,需要做一下配置 。
在Python安裝目錄(如:D:\Python35\Lib\site-packages\pytesseract) 中修改 pytesseract.py文件,路徑修改為'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
加入環境變量
在環境變量中添加TESSDATA_PREFIX C:\software\Tesseract-OCR
在Path中添加%TESSDATA_PREFIX%
在CMD中輸入tesseract -v, 如顯示以下界面,則表示Tesseract安裝完成且添加到系統變量中。
Linux 用戶可以通過apt-get 安裝:
$sudo apt-get tesseract-ocr
用Tesseract可以識別格式規范的文字,主要具有以下特點:
? 使用一個標準字體(不包含手寫體、草書,或者十分“花哨的”字體)
? 雖然被復印或拍照,字體還是很清晰,沒有多余的痕跡或污點
? 排列整齊,沒有歪歪斜斜的字
? 沒有超出圖片范圍,也沒有殘缺不全,或緊緊貼在圖片的邊緣
因為tesseract-ocr默認不支持中文識別。 將下載到的文件:chi_sim.traineddata 放到Tesseract-OCR安裝目錄 D:\Program Files (x86)\Tesseract-OCR\tessdata 下
鏈接:https://pan.baidu.com/s/1c-fveIYnm1sQHxX9WRpUZw
提取碼:9ovq
Tesseract對于彩色圖片的識別效果沒有黑白圖片的效果好。
pytesseract
pytesseract是Tesseract關于Python的接口,可以使用pip install pytesseract安裝。安裝完后,就可以使用Python調用Tesseract了,不過,你還需要一個Python的圖片處理模塊,可以安裝pillow.
??輸入以下代碼,可以實現同上述Tesseract命令一樣的效果:
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)