python、ocr、tts、音视频处理

2019-07-09  本文已影响0人  上山走18398

import cv2
import pytesseract
opencv-python3 IDE需要更新到最新
OCR引擎为tesseract
依赖:

  1. Tesseract,下载并安装tesseract-ocr软件,并配置环境变量
  2. pytesseract
  3. 下载opencv 从python库中 导出cv2.pyd到lib\site-packages,还需加载numpy库
自动化思路

目的:

  1. 线上问题,事故发生期间的视频影像丢失
  2. 为了排查和定位问题,需要对视频是否丢帧,丢失率等进行校验,
  3. 但由于视频时间长,采用人为校验耗时耗力

解决方案:

  1. 采用自动化check机制,判断视频是否有丢帧和漏秒,统计丢失率,并且丰富测试手段
  2. 采用cv2技术截取视频每一帧,再利用ocr技术提取图片时间戳,由上一视频结尾和下一视频开始时间戳来判断是否有漏秒和丢帧,并且统计准确率,丢失率,丢失秒数,每两帧之间相差毫秒级
    坑:
    图片识别度不高,需要加强训练集数据

OCR(Optical Character Recognition)光学文字识别
Tesseract是目前公认最优秀,最精确的开源OCR系统库

音视频常见问题:https://blog.csdn.net/weixin_34112030/article/details/89987478


音频
from mutagen.mp3 import MP3

audio = MP3(image_path + filename)
duration =audio.info.length
int(math.floor(duration))   

TTS

tts(text to speech),即文本到语音,是人机对话的一部分,让机器说话
关键技术:语音合成(SpeechSynthesis)
常用工具:
语音合成助手,讯飞有声app
各大市场平台api,身份鉴权,调用次数,收费项目

ASR
语音转文本
常用工具:讯飞听见app,讯飞

参考链接:https://blog.csdn.net/jclian91/article/details/80628188
pytesseract是Tesseract关于python的接口
图片处理模块pillow
https://blog.csdn.net/sylsjane/article/details/83751297 样本训练方法
https://segmentfault.com/a/1190000012861561?utm_source=tag-newest 百度api每日有限额,还有其他ocr软件api

上一篇下一篇

猜你喜欢

热点阅读