综述

2017-01-15 本文已影响0人尹小贱加油啊

选择题

音乐合成的步骤
作曲作词>编曲>录音>混音
音乐处理技术
Midomi 公司用了什么技术---旋律检测（待定）
语音信号处理方法

语音信号时域分析
预处理采样、量化、预加重、短时加窗
• 音量（Volume ）
• 过零率（Zero Crossing Rate ）短时分析
• 端点检测（End-Point Detection ）
• 基频（F0）提取方法、自相关法
语音信号频域分析

特征提取预处理的目的
关键帧提取算法
基于镜头边界法
基于颜色特征法
基于运动分析法
基于聚类的关键帧提取
镜头相似度提取的特征
视频目录构造的过程
视频目录生成构造的主要步骤
镜头边缘检测>关键帧提取>时空特征提取>时间可适性成组>场景结构构造
语音发声的形成过程 (16-17)
声门振动的快慢，决定声音的基本频率(即音高)。
口腔、鼻腔、舌头的位置、嘴型等，决定声音的內容
(即音色)。
肺部压缩空气的力量大小，决定音量大小

判断题

Nyquist API的功能（错误，在讲OpenAL）
Nyquist是一个基于LISP用于声音合成的语言，基本声音的合成
附：OpenAl自由软件界的跨平台音效API，面向多通道三维位置音效制作， API 风格模仿自 OpenGL
功能：在来源物体、音效缓冲和收听者中编码
应用：音乐制作、大型的3D游戏、大型电影

MFCC（错误，顺序错误）
FFT ->LOG -> DCT
Speech –> FFT based spectrum -> Mel scale triangular filters -> Acoustic vector
组的定义
组(Group)：组是介于物理镜头和语义场景之间的结构。
例如：一段采访录像，镜头在主持人与被采访者之间频繁切换，整个采访属于一个场景，而那些关于主持人的所有镜头属于一组，关于被采访者的所有镜头属于另一组。

简答题

音乐合成的四要素及具体定义

音高
指各种不同高低的声音，由发音体的振动频率决定的
音强
即音的强弱（响亮）程度，由发音时发音体振动幅度（简称振幅）的大小决定的
音长
是指声音的长短，它决定于发音体振动时间的久暂
音色
即声音的感觉特性，音色是由发音物体所产生的谐波决定的，发音物体的性质、形状不同，所产生的谐波也不同，因而音色也不同

第一题变种：答旋律节奏和声以及这三个的定义

节奏
节奏是指组织起来的音的长短关系，它是音乐的骨架。节拍是指时值相等的强拍和弱拍有规律地交替出现。
旋律
旋律是指长短、高低、强弱不同的一连串乐音有组织地进行。旋律又是曲调，它是音乐的基础和灵魂
和声
和声包括“和弦”及“和声进行”。和弦通常是由三个或三个以上的乐音按一定的法则纵向（同时）重叠而形成的音响组合。和弦的横向组织就是和声进行

三种音乐可编程方法

基于Niquist的音乐合成(LISP语言）
Nyquist是一个基于LISP用于声音合成的语言，由CMU的Roger B. Dannenberg 教授带领开发
OpenAL
自由软件界的跨平台音效API，面向多通道三维位置音效制作， API 风格模仿自 OpenGL
Matlab
Flash Action Script

PITCH提取

Time-domain methods 时域方法
- ACF: Autocorrelation function 自相关
- SMDF: Average magnitude difference function 平均幅值差
- SIFT: Simple inverse filter tracking 逆滤波
Frequency-domain methods 频域方法
Harmonic product spectrum method 谐波法
Cepstrum method 倒谱法

端点检测算法
运动向量提取算法
标准匹配、顺序查找、对数搜索、分层搜索
Criteria of matching \ Sequential Search
Logarithmic search \ Hierarchical Search
视频时序结构图构造
主要步骤
视频解码
视频切分
关键帧提取
视频聚类分析
构造时序图
按照时序图浏览
短时平稳假设 (16-17)

语音信号特性是随时间而变化的，本质上是一个非平稳过程。但不同的语音是由人的口腔肌肉运动构成声道的某种形状而产生的响应，而这种肌肉运动频率相对于语音频率来说是缓慢的，因而在一个短时间范围内，其特性基本保持不变，即相对稳定，可以视作一个准稳态过程。基于这样的考虑，对语音信号进行分段考虑，每一段称为一帧(frame).一般假设为10- 30ms的短时间隔。

简答题

I帧表示关键帧，你可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）

P帧表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）

B帧是双向差别帧，也就是B帧记录的是本帧与前后帧的差别（具体比较复杂，有4种情况），换言之，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时CPU会比较累~。

P帧的预测与重构:
P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

综述

选择题

判断题

简答题

简答题

猜你喜欢

热点阅读