> CentOS > CentOS教程 >

如何在Centos下识别图片中的文字并存储到txt中

本教程将介绍如何在CentOS上使用TESSERACT将图像转换为文本。
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

我们在centos下使用TESSERACT来识别图片文字。因为没有CentOS下TESSERACT的3.xx最新的RPM包(注意3.0版本之后才支持中文的识别。你可以手动编译安装TESSERACT最新版本)所以我们只能用TESSERACT2.04的RPM包来进行说明。

TESSERACT2.04只能读取文本的格式为tif和bmp的文件。所以我们还需要另外一个工具ImageMagick,这款软件想必大家都应该熟悉。ImageMagick的可以转换几乎所有的图像格式。

下面进入正题:

1.首先安装TESSERACT和ImageMagick

 
 
1
yum install tesseract tesseract-en ImageMagick

2.让我们来测试一下安装是否成功

①现在一张你想要装换为文字的图片,例如

 
 
 
1
2
cd /tmp
wget http://lxy.me/wp-content/uploads/2013/01/centos-ocr.jpg

②使用Imagemagick将图片转换为TESSERACT可以识别的格式

 
1
convert centos-ocr.jpg logo.tif

③使用TESSERACT将图片中的文字输出

 
1
tesseract logo.tif output

④检查下结果是否正确

 
1
2
cat output.txt
@centos

如果看到centos字样,那说明你已经装换成功了(成功率不一定是百分之百,请大家酌情处理)。如果需要自动脚本,请查看Centos下将远程图片识别为文字的脚本


 

(责任编辑:IT)