如何在Centos下识别图片中的文字并存储到txt中

本教程将介绍如何在CentOS上使用TESSERACT将图像转换为文本。
OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

我们在centos下使用TESSERACT来识别图片文字。因为没有CentOS下TESSERACT的3.xx最新的RPM包（注意3.0版本之后才支持中文的识别。你可以手动编译安装TESSERACT最新版本）所以我们只能用TESSERACT2.04的RPM包来进行说明。

TESSERACT2.04只能读取文本的格式为tif和bmp的文件。所以我们还需要另外一个工具ImageMagick，这款软件想必大家都应该熟悉。ImageMagick的可以转换几乎所有的图像格式。

下面进入正题：

1.首先安装TESSERACT和ImageMagick

1	yum install tesseract tesseract-en ImageMagick

2.让我们来测试一下安装是否成功

①现在一张你想要装换为文字的图片，例如

1 2	cd /tmp wget http://lxy.me/wp-content/uploads/2013/01/centos-ocr.jpg

②使用Imagemagick将图片转换为TESSERACT可以识别的格式

1	convert centos-ocr.jpg logo.tif

③使用TESSERACT将图片中的文字输出

1	tesseract logo.tif output

④检查下结果是否正确

1 2	cat output.txt @centos

如果看到centos字样，那说明你已经装换成功了（成功率不一定是百分之百，请大家酌情处理）。如果需要自动脚本，请查看Centos下将远程图片识别为文字的脚本

(责任编辑：IT)