Tesseract-OCR入門使用1
Tesseract-OCR入門使用2
Tesseract-OCR入門使用3
Tesseract API Example
環(huán)境:
- Python3.6
- Pycharm
- Win10
- tesseract-ocr-setup-3.05.00dev.exe
安裝:
- 安裝tesseract-orc的時候需要自行選擇安裝的語言,一些其他國家的語言可以不選擇安裝,我之按安裝了中文,英文。安裝過程和其他軟件一樣。
- pip install PIL
- pip install pytesseract
配置環(huán)境
1.設(shè)置 tesseract-orc路徑
默認情況下tesseract-orc是不被添加到系統(tǒng)的path路徑的,這樣在使用的時候發(fā)生FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件
錯誤。
解決方法:
- 方法1:將
C:\Program Files (x86)\Tesseract-OCR
添加到系統(tǒng)路徑(路徑因安裝過程而異) - 方法2:修改pytesseract.py文件,修改方法如下
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
- 設(shè)置訓(xùn)練集的位置
下載的默認訓(xùn)練集也沒有添加到系統(tǒng)路徑,會報錯pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')
解決方法:
設(shè)置環(huán)境變量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
實例程序
from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('seven.png', lang='chi_sim') # 識別中文
print(text)
其他版本
Ubuntu版本:
1.tesseract-ocr安裝
- sudo apt-get install tesseract-ocr
2.pytesseract安裝
- sudo pip install pytesseract
3.Pillow 安裝
- sudo pip install pillow
其他linux版本(如centos):
1.tesseract-ocr安裝
沒找到直接命令安裝,所以需要手動下載安裝包。
https://github.com/tesseract-ocr/tesseract
在上述地址中下載最新的tesseract-ocr的安裝包,并解壓。
通過以下命令安裝:
(1)cd tesseract-3.04.01
(2)./autogen.sh
(3)./configure
注意,如果出現(xiàn)error: leptonica not found,需要下載安裝leptonica
http://www.leptonica.org/download.html
(4)make
(5)make install
(6)ldconfig
2.pytesseract安裝
sudo pip install pytesseract
3.Pillow 安裝
sudo pip install pillow