当前位置: > CentOS > CentOS教程 >

CentOS 6.3 下build tesseract

时间:2014-12-29 01:46来源:linux.it.net.cn 作者:IT

参考:https://code.google.com/p/tesseract-ocr/wiki/Compiling

 

安装Dependencies:

yes | yum install libpng-devel.x86_64

yes | yum install libjpeg-devel.x86_64

yes | yum install libtiff-devel.x86_64

yes | yum install zlib-devel.x86_64

 

安装Leptonica:

Leptonica官网的svn checkout 方法貌似不行,执行 svn checkout http://leptonica.googlecode.com/svn/trunk/ /your/own/directory 的结果是,除了一个trunk子目录,啥也没有。

退而求其次,下载源代码打包。解压后,进入Leptonica源代码目录。
./configure #注意:没做configure之前是没有Makefile文件的,之后才生成的
make
make install #默认安装到了/usr/local/lib 下面,是一些静态库和动态库文件;头文件默认位于/usr/local/include/leptonica

 

安装Tesseract:

用svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ /your/own/directory 把源代码checkout到本地。进入目录,然后
./autogen.sh #用来生成configure文件
./configure
make
make install #默认安装到 /usr/local/include、 /usr/local/lib 和 /usr/local/bin/ 下面
ldconfig #这步操作别忘了!

 

设置Tesseract环境变量:

下载tesseract-ocr-3.02.eng.tar.gz, tesseract-ocr-3.02.chi_sim.tar.gz, tesseract-ocr-3.02.chi_tra.tar.gz 等语言数据文件,解压后,会解压到一个共同的子目录tessedata中。

然后设置环境变量TESSDATA_PREFIX为tessedata目录的上一级目录。如果不配环境变量TESSDATA_PREFIX,会遇到下面的错误:

Error opening data file /home/yasi/tessdata/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.

 

运行Tesseract:

准备带有文字的图片文件,如./pic.png,然后 tesseract ./pic.png textfile

 

equationdetect.cpp编译问题:

如果遇到下面的编译问题,很可能是equationdetect.cpp文件的编码格式有问题。检查它的编码格式,如果是Unicode的,改成UTF-8,重新编译。

(责任编辑:IT)
------分隔线----------------------------
栏目列表
推荐内容