综述

2017-01-15  本文已影响0人  尹小贱加油啊

选择题

  1. 音乐合成的步骤
    作曲作词>编曲>录音>混音

  2. 音乐处理技术
    Midomi 公司用了什么技术---旋律检测(待定)

  3. 语音信号处理方法

  1. 特征提取预处理的目的

  2. 关键帧提取算法
    基于镜头边界法
    基于颜色特征法
    基于运动分析法
    基于聚类的关键帧提取

  3. 镜头相似度提取的特征

  4. 视频目录构造的过程
    视频目录生成构造的主要步骤
    镜头边缘检测>关键帧提取>时空特征提取>时间可适性成组>场景结构构造

  5. 语音发声的形成过程 (16-17)
    声门振动的快慢,决定声音的基本频率(即音高)。
    口腔、鼻腔、舌头的位置、嘴型等,决定声音的內容
    (即音色)。
    肺部压缩空气的力量大小,决定音量大小

判断题

  1. Nyquist API的功能(错误,在讲OpenAL)
    Nyquist是一个基于LISP用于声音合成的语言,基本声音的合成
    :OpenAl自由软件界的跨平台音效API,面向多通道三维位置音效制作, API 风格模仿自 OpenGL
    功能:在来源物体、音效缓冲和收听者中编码
    应用:音乐制作、大型的3D游戏、大型电影
  1. MFCC(错误,顺序错误)
    FFT ->LOG -> DCT
    Speech –> FFT based spectrum -> Mel scale triangular filters -> Acoustic vector

  2. 组的定义
    组(Group):组是介于物理镜头和语义场景之间的结构。
    例如:一段采访录像,镜头在主持人与被采访者之间频繁切换,整个采访属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另一组。

简答题

  1. 音乐合成的四要素及具体定义

第一题变种:答旋律节奏和声以及这三个的定义

  1. 三种音乐可编程方法
  1. PITCH提取
  1. 端点检测算法

  2. 运动向量提取算法
    标准匹配、顺序查找、对数搜索、分层搜索
    Criteria of matching \ Sequential Search
    Logarithmic search \ Hierarchical Search

  3. 视频时序结构图构造
    主要步骤
    视频解码
    视频切分
    关键帧提取
    视频聚类分析
    构造时序图
    按照时序图浏览

  4. 短时平稳假设 (16-17)

语音信号特性是随时间而变化的,本质上是一个非 平稳过程。但不同的语音是由人的口腔肌肉运动构成 声道的某种形状而产生的响应,而这种肌肉运动频率 相对于语音频率来说是缓慢的,因而在一个短时间范 围内,其特性基本保持不变,即相对稳定,可以视作 一个准稳态过程。基于这样的考虑,对语音信号进行分段考虑,每一段称为一帧(frame).一般假设为10- 30ms的短时间隔。

简答题

I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)

P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)

B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别(具体比较复杂,有4种情况),换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累~。

P帧的预测与重构:
P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

上一篇 下一篇

猜你喜欢

热点阅读