如何在Centos下识别图片中的文字并存储到txt中
时间:2014-12-15 01:35 来源:linux.it.net.cn 作者:IT
本教程将介绍如何在CentOS上使用TESSERACT将图像转换为文本。
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
我们在centos下使用TESSERACT来识别图片文字。因为没有CentOS下TESSERACT的3.xx最新的RPM包(注意3.0版本之后才支持中文的识别。你可以手动编译安装TESSERACT最新版本)所以我们只能用TESSERACT2.04的RPM包来进行说明。
TESSERACT2.04只能读取文本的格式为tif和bmp的文件。所以我们还需要另外一个工具ImageMagick,这款软件想必大家都应该熟悉。ImageMagick的可以转换几乎所有的图像格式。
下面进入正题:
1.首先安装TESSERACT和ImageMagick
1
yum install tesseract tesseract-en ImageMagick
2.让我们来测试一下安装是否成功
①现在一张你想要装换为文字的图片,例如
1
2
cd /tmp
wget http://lxy.me/wp-content/uploads/2013/01/centos-ocr.jpg
②使用Imagemagick将图片转换为TESSERACT可以识别的格式
1
convert centos-ocr.jpg logo.tif
③使用TESSERACT将图片中的文字输出
1
tesseract logo.tif output
④检查下结果是否正确
1
2
cat output.txt
@centos
如果看到centos字样,那说明你已经装换成功了(成功率不一定是百分之百,请大家酌情处理)。如果需要自动脚本,请查看Centos下将远程图片识别为文字的脚本
(责任编辑:IT)
本教程将介绍如何在CentOS上使用TESSERACT将图像转换为文本。 我们在centos下使用TESSERACT来识别图片文字。因为没有CentOS下TESSERACT的3.xx最新的RPM包(注意3.0版本之后才支持中文的识别。你可以手动编译安装TESSERACT最新版本)所以我们只能用TESSERACT2.04的RPM包来进行说明。 TESSERACT2.04只能读取文本的格式为tif和bmp的文件。所以我们还需要另外一个工具ImageMagick,这款软件想必大家都应该熟悉。ImageMagick的可以转换几乎所有的图像格式。 下面进入正题: 1.首先安装TESSERACT和ImageMagick
2.让我们来测试一下安装是否成功 ①现在一张你想要装换为文字的图片,例如
②使用Imagemagick将图片转换为TESSERACT可以识别的格式
③使用TESSERACT将图片中的文字输出
④检查下结果是否正确
如果看到centos字样,那说明你已经装换成功了(成功率不一定是百分之百,请大家酌情处理)。如果需要自动脚本,请查看Centos下将远程图片识别为文字的脚本 |