python、ocr、tts、音视频处理

2019-07-09 本文已影响0人上山走18398

import cv2
import pytesseract
opencv-python3 IDE需要更新到最新
OCR引擎为tesseract
依赖：

Tesseract，下载并安装tesseract-ocr软件，并配置环境变量
pytesseract
下载opencv 从python库中导出cv2.pyd到lib\site-packages，还需加载numpy库

自动化思路

目的：

线上问题，事故发生期间的视频影像丢失
为了排查和定位问题，需要对视频是否丢帧，丢失率等进行校验，
但由于视频时间长，采用人为校验耗时耗力

解决方案：

采用自动化check机制，判断视频是否有丢帧和漏秒，统计丢失率，并且丰富测试手段
采用cv2技术截取视频每一帧，再利用ocr技术提取图片时间戳，由上一视频结尾和下一视频开始时间戳来判断是否有漏秒和丢帧，并且统计准确率，丢失率，丢失秒数，每两帧之间相差毫秒级
坑：
图片识别度不高，需要加强训练集数据

OCR(Optical Character Recognition)光学文字识别
Tesseract是目前公认最优秀，最精确的开源OCR系统库

音视频常见问题：https://blog.csdn.net/weixin_34112030/article/details/89987478


音频
from mutagen.mp3 import MP3

audio = MP3(image_path + filename)
duration =audio.info.length
int(math.floor(duration))

TTS

tts(text to speech)，即文本到语音，是人机对话的一部分，让机器说话
关键技术：语音合成(SpeechSynthesis)
常用工具：
语音合成助手，讯飞有声app
各大市场平台api，身份鉴权，调用次数，收费项目

ASR
语音转文本
常用工具：讯飞听见app，讯飞

参考链接：https://blog.csdn.net/jclian91/article/details/80628188
pytesseract是Tesseract关于python的接口
图片处理模块pillow
https://blog.csdn.net/sylsjane/article/details/83751297 样本训练方法
https://segmentfault.com/a/1190000012861561?utm_source=tag-newest 百度api每日有限额，还有其他ocr软件api

python、ocr、tts、音视频处理

自动化思路

猜你喜欢

热点阅读