Uipath如何添加Tesseract OCR语言包

2020-11-18 本文已影响0人昨日雨疏风骤

有用过Uipath的Tesseract OCR功能的小伙伴都知道，系统默认的语言是英文“en”。对于中文操作环境来说，如果直接使用，出来的肯定是一堆乱码。

Tesseract OCR.png

在Tesseract OCR的配置面板中，我们可以看到，其实是有一个配置项是来变更目标语言的。而对于各个语言，Tesseract都有一个对应的Language code. 例如：英语对应“en”,中文简体对应“chi_sim”等等。

如何将language设置为其他的呢？其实只需要两步，就可以完成。
1.下载语言包到Uipath本地运行环境
语言包下载路径大家可以参考这两个：https://github.com/tesseract-ocr/tessdata_best ，https://github.com/tesseract-ocr/tessdata，

lan.png
上面以traineddata结尾的文件，就是语言包，大家根据自己需要的进行下载。

locate.png

下载完成后，将其放置到uipath本地路径。（路径可能有所差异，大家根据实际情况调整）。如果在uipath下没有“tessdata”这个文件夹的话，自己手动新建即可。

2.更改Tesseract OCR面板配置

language如何配置，其实只需要将我们下载下来的包名填充上去即可。例如我下载了chi_sim.traineddata, 那我将“chi_sim”填上去即可。

OK，Tesseract OCR的语言变更就这么多了，其实不难，只是有时候不知道从何下手，希望这个share可以让大家少采坑。

如果觉得有用，不要忘记点赞哦^_!