OCR文字識別

最近項目需要身份證識別文本,阿里云提供的服務(wù)很方便,但是太貴大概5元一次。

自己研究下開源的文本識別,做個筆記。

centos7下

安裝 leptonica

wget http://www.leptonica.org/source/leptonica-1.72.tar.gz

tar xvzf leptonica-1.72.tar.gz

cd leptonica-1.72/

./configure

make && make install

安裝tesseract-ocr

wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip

unzip3.04.zip

cd tesseract-3.04/

./configure

make && make install

sudo ldconfig

配置文件位置

/usr/local/share/tessdata

下載支持的語言對應(yīng)的配置中

GitHub地址 https://github.com/tesseract-ocr/langdata

創(chuàng)建存放語言文件的文件夾/usr/local/share/tessdata/lang

修改配置的變量export TESSDATA_PREFIX=/some/path/to/tessdata

這里注意的是,我們修改的是路徑的前綴

真實的語言文件的路徑實際是/usr/local/share/tessdata/lang/tessdata

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 引 最近要倒騰一下文字識別,直接上手iOS的識別遇到了一些困難,于是決定先在Mac上做一做,會比較簡單。 有一個經(jīng)...
    Cloudox_閱讀 4,785評論 1 3
  • OCR(Optical Character Recognition,光學(xué)字符識別),用于識別圖片中的文字。本文測試...
    SpikeKing閱讀 8,748評論 1 4
  • 因為熱愛互聯(lián)網(wǎng),所以身邊有很多互聯(lián)網(wǎng)的朋友,很多時候自己想不明白的事情會跟他們交流。但是發(fā)現(xiàn)有時候說了一個事之后對...
    Willsland閱讀 793評論 1 3
  • 讀高郵湖畔汪先生《端午的鴨蛋》,已約莫七年了。可能是從小生活的地域不遠于高郵,因此讀汪先生的“鴨蛋”時,自己也仿佛...
    肥宅大學(xué)士閱讀 359評論 0 3
  • recently in China,there are a lot of shared bicycles put ...
    偉大的精神閱讀 1,016評論 0 0