参考:https://code.google.com/p/tesseract-ocr/wiki/Compiling
安装Dependencies:yes | yum install libpng-devel.x86_64 yes | yum install libjpeg-devel.x86_64 yes | yum install libtiff-devel.x86_64 yes | yum install zlib-devel.x86_64
安装Leptonica:Leptonica官网的svn checkout 方法貌似不行,执行 svn checkout http://leptonica.googlecode.com/svn/trunk/ /your/own/directory 的结果是,除了一个trunk子目录,啥也没有。
退而求其次,下载源代码打包。解压后,进入Leptonica源代码目录。
安装Tesseract:
用svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ /your/own/directory 把源代码checkout到本地。进入目录,然后
设置Tesseract环境变量:下载tesseract-ocr-3.02.eng.tar.gz, tesseract-ocr-3.02.chi_sim.tar.gz, tesseract-ocr-3.02.chi_tra.tar.gz 等语言数据文件,解压后,会解压到一个共同的子目录tessedata中。 然后设置环境变量TESSDATA_PREFIX为tessedata目录的上一级目录。如果不配环境变量TESSDATA_PREFIX,会遇到下面的错误:
Error opening data file /home/yasi/tessdata/tessdata/eng.traineddata
运行Tesseract:准备带有文字的图片文件,如./pic.png,然后 tesseract ./pic.png textfile
equationdetect.cpp编译问题:如果遇到下面的编译问题,很可能是equationdetect.cpp文件的编码格式有问题。检查它的编码格式,如果是Unicode的,改成UTF-8,重新编译。 (责任编辑:IT) |