R:tesseract包识别图片上的文字
2020-08-17 本文已影响0人
生信云笔记
前言
今天分享一个R包——"tesseract",这个包可以用来提取图片上的文字,感觉很厉害的样子。这个包真好满足我了的需求,所有就倒腾了一下,下面来具体说一说。
我在安装这个包的时候遇到了一些列的问题,如果你也遇到问题了,不过去查看一下《debug: 安装“tesseract”R包引发的一些列报错》,也许会对你有所帮助。
安装R包前,先要保证你的系统上已经安装了tesseract,如果没有安装可以用以下命令安装一下:
#系统安装tesseract
sudo apt-get install tesseract-ocr
#安装中文训练库,如果你不提中文就不用安装了
sudo apt-get install tesseract-ocr-chi-sim
sudo apt-get install tesseract-ocr-chi-tra
然后就可以安装R包了,就是正常的R包安装命令即可:
#安装R包
install.packages("tesseract")
安装好以后就可以使用来提取图片中的文字了,使用方法也是相当的简单,下面来介绍一下具体的使用方法:
- 图片
首先来看一下我要提取文字的图片是什么样子,图片内容如下:
- 提取文字
用R包tesseract来提取图片文字的具体代码如下:
>library(tesseract)
>text <- ocr('linux/image/IMG_4724.JPG',engine = tesseract("chi_sim"))
>writeLines(text) #查看一下提取效果
可选步骤(如果需要更高浓度的质粒,可进行如下操作) :
14 每1 m洗表液加入1.42 ml异两本以及0 .42 ml 5M NaCl (客户自备),混匀, 室温放轩5 min,
8.000 mpm (~-8.228Xx名离心0 min,小心计上清-
15 加入0.5 ml 的70%乙酬洗涤沉演, 室温8.000 mpm (~8.228Xg)离心5 min,小心弃乙酬-
16 重复操作步时15.
17 空气中二烛沉演约5.10 min, 根据需要用适当体积的TB缓冲液溶解沉演-
从上面的提取效果来看,大体上是把提取出来了,但还是有些错别字和不对的地方,识别的分别率还有待提高,不过这也可能跟图片中文字的清晰度和距离有关系吧。
最后
emm,今天就分享到这里了,大家感兴趣的可以自己试一试,朋友们如果有比这个识别效果更好的软件也可以留言分享给我一下哦。
![](https://img.haomeiwen.com/i23667126/47b3a64b155aa2a4.png)