最近項目需要身份證識別文本,阿里云提供的服務(wù)很方便,但是太貴大概5元一次。
自己研究下開源的文本識別,做個筆記。
centos7下
安裝 leptonica
wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
tar xvzf leptonica-1.72.tar.gz
cd leptonica-1.72/
./configure
make && make install
安裝tesseract-ocr
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig
配置文件位置
/usr/local/share/tessdata
下載支持的語言對應(yīng)的配置中
GitHub地址 https://github.com/tesseract-ocr/langdata
創(chuàng)建存放語言文件的文件夾/usr/local/share/tessdata/lang
修改配置的變量export TESSDATA_PREFIX=/some/path/to/tessdata
這里注意的是,我們修改的是路徑的前綴
真實的語言文件的路徑實際是/usr/local/share/tessdata/lang/tessdata