python、ocr、tts、音视频处理
2019-07-09 本文已影响0人
上山走18398
import cv2
import pytesseract
opencv-python3 IDE需要更新到最新
OCR引擎为tesseract
依赖:
- Tesseract,下载并安装tesseract-ocr软件,并配置环境变量
- pytesseract
- 下载opencv 从python库中 导出cv2.pyd到lib\site-packages,还需加载numpy库
自动化思路
目的:
- 线上问题,事故发生期间的视频影像丢失
- 为了排查和定位问题,需要对视频是否丢帧,丢失率等进行校验,
- 但由于视频时间长,采用人为校验耗时耗力
解决方案:
- 采用自动化check机制,判断视频是否有丢帧和漏秒,统计丢失率,并且丰富测试手段
- 采用cv2技术截取视频每一帧,再利用ocr技术提取图片时间戳,由上一视频结尾和下一视频开始时间戳来判断是否有漏秒和丢帧,并且统计准确率,丢失率,丢失秒数,每两帧之间相差毫秒级
坑:
图片识别度不高,需要加强训练集数据
OCR(Optical Character Recognition)光学文字识别
Tesseract是目前公认最优秀,最精确的开源OCR系统库
音视频常见问题:https://blog.csdn.net/weixin_34112030/article/details/89987478
音频
from mutagen.mp3 import MP3
audio = MP3(image_path + filename)
duration =audio.info.length
int(math.floor(duration))
TTS
tts(text to speech),即文本到语音,是人机对话的一部分,让机器说话
关键技术:语音合成(SpeechSynthesis)
常用工具:
语音合成助手,讯飞有声app
各大市场平台api,身份鉴权,调用次数,收费项目
ASR
语音转文本
常用工具:讯飞听见app,讯飞
参考链接:https://blog.csdn.net/jclian91/article/details/80628188
pytesseract是Tesseract关于python的接口
图片处理模块pillow
https://blog.csdn.net/sylsjane/article/details/83751297 样本训练方法
https://segmentfault.com/a/1190000012861561?utm_source=tag-newest 百度api每日有限额,还有其他ocr软件api