互联网架构多媒体知识集

实时音视频质量评估方案

2020-08-14  本文已影响0人  测试在路上

全文参考:
1. 音视频测试建议(腾讯音视频实验室质量平台组)
2. Android端音视频测试(网易云信)
3. 腾讯会议如何进行视频质量评估与优化?
4. 关于UGC、PGC、OGC三者详细区别
5. 音视频质量评估绿皮书
6. 语音质量评估

1、背景

视频电话功能,涉及实时音视频的质量评估。

音视频传输流程如下:

音视频传输流程如下

如图所示,影响音视频质量的因素有:

实时传输视频质量专项有:(不同网络环境下)

图片质量不能完全代表视频质量,这个一定注意。有疑问的,看下图(来源:腾讯会议)

image.png

2、音视频质量评估方案

2.1 视频评估方案

视频质量评估致力于评估视频的人眼感知质量,总的来说有两种评估方式:

客观质量评估算法大概分三类,主要取决于是否使用无损的源视频作为参考。

不同视频算法在视频数据库上的表现:

不同视频算法在视频数据库上的表现

通过调研发现,视频质量评估开源算法,暂时以netflix的VMAF的为准,后期会增加腾讯开源的DVQA评估(暂未调通,相关文档较少)。

(1)netflix VMAF

    PYTHONPATH=python ./python/vmaf/script/run_vmaf.py \ yuv420p 576 324 \ python/test/resource/yuv/src01_hrc00_576x324.yuv \ python/test/resource/yuv/src01_hrc01_576x324.yuv \ --out-fmt json

2.2 音频评估方案

音频质量评估算法较多,从稳定性和评估纬度考虑,选择PESQ和STOI进行音频评估。
音频质量评估相关介绍及代码见:https://testerhome.com/topics/25054

(1) PESQ

(2) 可短时客观可懂(STOI)

0-1范围,值越大,可懂度越高。
git:https://github.com/mpariente/pystoi

2.3 流畅度评估

2.4 网络模拟工具

可通过模拟不同的网络环境,一方面验证SDK承诺的各项性能指标是否合格,另一方面验证弱网环境下的音视频质量。

(1)QNET弱网测试工具

只需要在设备上安装APP,并用QQ登陆即可。弱网模拟环境稳定、安装简单。

image image

(2)network emulator

弱网测试工具:network emulator,微软开源,可实现带宽、丢包、延时、抖动、综合网络等弱网参数的限制。
弱网测试常用参数:

弱网测试常用参数

(3)facebook ATC

安装及使用参考:https://testerhome.com/topics/15562

image

3、参考资料

UGC质量评估:评估对象为短视频、直播、实时视频通话等。

3.1 SDK性能指标

(1)音视频SDK性能指标

腾讯数据来源:https://cloud.tencent.com/document/product/454/9867
推流状态数据:

image

获取播放的状态数据:

image

3.2 视频质量标准及算法

视频质量客观评估就是量化一段视频通过视频传输/处理系统时画面质量变化(通常是下降)程度的方法。

(1)视频评估算法对比

image

指标解析:

(2)腾讯会议开源的DVQA

针对腾讯会议场景所开发的基于深度学习的实时视频全参考质量评估算法。

腾讯会议使用深度学习设计了一个新的网格,来自动学习视频质量的相关特征,然后在PGC数据集上训练得到一个通用的网格。

腾讯视频也开发了端到端自动的质量评测系统,这是整体的框架图。其实它的策略相对来说没那么复杂,就是在发送端播放源视频,经过可控的损伤网络之后,另一边是接收端,在接收端捕获会议呈现的画面,把这个画面拿出来再结合发送端的源视频去计算它的质量分数。前面提到的性能、码率这些绝对的指标都可以得到,抗性更多取决于什么样的网络情况下体验特别糟糕,时延、卡顿、音画同步、包括帧率都可以通过比对这两个视频得到结果。

(3)netflix VMAF

3.3 音频质量标准

PESQ和PQLQA都是业界公认的语音音质评估算法;

(1)音频评估纬度

A. 绝对等级评分(MOS)

td {white-space:pre-wrap;}音频级别MOS值评价标准优4.05.0很好,听得清楚;延迟小,交流流畅良3.54.0稍差,听得清楚;延迟小,交流欠流畅,有点杂音中3.03.5还可以,听不太清;有一定延迟,可以交流差1.53.0勉强,听不太清;延迟较大,交流需要重复多遍劣0~1.5极差,听不懂;延迟大,交流不通畅
一般MOS应为4或者更高,这可以被认为是比较好的语音质量,若MOS低于3.6,则表示大部分被测不太满意这个语音质量。
MOS测试一般要求:

  1. 足够多样化的样本(即试听者和句子数量)以确保结果在统计上的显著;
  2. 控制每个试听者的实验环境和设备保持一致;
  3. 每个试听者遵循同样的评估标准。

B. 失真等级评分(Degradation Category Rating, DCR)

C. 相对等级评分(Comparative Category Rating, CCR)

(2)音频评估算法

A. python-pesq(PESQ)

B. 分段信噪比(SegSNR)

由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善信噪比的问题,可以采用分段信噪比。

C. 对数似然比测度(LLR)

坂仓距离测度是通过语音信号的线性预测分析来实现的。ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。LLR可以看成一种坂仓距离(Itakura Distance,IS),但IS距离需要考虑模型增益。而LLR不考虑模型增益引起的幅度位移,更重视整体谱包络的相似度。

D. 对数谱距离(LSD)

E. 可短时客观可懂(STOI)

0-1范围,值越大,可懂度越高。

F. 加权谱倾斜测度(WSS)

WSS值越小说明扭曲越少,越小越好,范围

G. 感知客观语音质量评估(POLQA)

POLQA,是一种全参考(FR)算法,可对与原始信号相关的降级或处理过的语音信号进行评级。它将参考信号(讲话者侧)的每个样本与劣化信号(收听者侧)的每个相应样本进行比较。两个信号之间的感知差异被评为差异。
PQLQA的音质评估涵盖了可懂度、卡顿等听感信息;因为是有参算法,所以不适合用于变声一类的场景评估;除关心音质的评价值外,音质平稳性也会对听感有较大影响。

4.5 音视频处理工具FFmpeg

(1)统计码率

ffmpeg -i  /Users/lizhen/Downloads/mask.mp4  -hide_banner

输出:

image

5、名词解释

(1)视频

(2)音频参数(参考资料)

上一篇 下一篇

猜你喜欢

热点阅读