本教程将介绍如何在CentOS上使用TESSERACT将图像转换为文本。 我们在centos下使用TESSERACT来识别图片文字。因为没有CentOS下TESSERACT的3.xx最新的RPM包(注意3.0版本之后才支持中文的识别。你可以手动编译安装TESSERACT最新版本)所以我们只能用TESSERACT2.04的RPM包来进行说明。 TESSERACT2.04只能读取文本的格式为tif和bmp的文件。所以我们还需要另外一个工具ImageMagick,这款软件想必大家都应该熟悉。ImageMagick的可以转换几乎所有的图像格式。 下面进入正题: 1.首先安装TESSERACT和ImageMagick
2.让我们来测试一下安装是否成功 ①现在一张你想要装换为文字的图片,例如
②使用Imagemagick将图片转换为TESSERACT可以识别的格式
③使用TESSERACT将图片中的文字输出
④检查下结果是否正确
如果看到centos字样,那说明你已经装换成功了(成功率不一定是百分之百,请大家酌情处理)。如果需要自动脚本,请查看Centos下将远程图片识别为文字的脚本 |