1. 【音频基础知识】
2022-04-20 本文已影响0人
东也_
声音的基础知识:
1. 人的听觉范围: 20Hz ~ 20KHz, HZ就是一秒钟震动的次数;
20Hz一下是次声波,20000Hz是超声波;
2. 正常人说话的频率为 85Hz - 1100Hz
3. 声音的三要素:
1. 音调:音频的快慢 由低到高 男生 - 女生 - 儿童 音频越高声音就越好听;
2. 音量: 物体振动的幅度;
3. 音色: 谐波 由很多不同的频率的声音组成的,下图中绿色的波是代表主频。
所有的变化都是在主频上做的一些微调,其中紫色的波是在黄色和浅蓝色结合主频生成的,紫色波中的两个小幅度的变化就是谐波。
音色的不同主要是通过谐波的不同来决定的;

问题: 这个模拟信号为什么要用正弦波表示?
模数的转换
就是将模拟信号转换成数字信号 即可以将模拟信号转换为计算机能够识别的方波
1. 对声音进行量化采样,例如下图:对一段频率每0.25 进行一次采样。实际上一般的采样率48000次,也就是一秒钟的模拟信号分割成48000个小段数字信号的值进行表示;采样率越大 数据越大 还原度越高,
2. 采样大小(也叫位深):一个采样数字信号用多少bit表示。常用的是16bit,采样越大表示的声音音量范围就越大;
3. 采样率:常用采样:8k 16k 32k 44.1k 48k;采样率越大 数据越大 还原度越高;
4. 声道数:单声道 双声道 多声道(立体声)
5. 数字信号还需要从十进制转换成二进制,让计算机识别,数字电路会形成方波。
一秒钟的PCM数据(kb) = 采样大小 * 采样频率 * 声道数;

音频原始数据
1. PCM是纯的音频数据,没有任何的格式;
2. WAV是一种多媒体文件格式 , 既可以存储原始数据 也可以存储压缩数据,就是在PCM原始数据上加了一个header,方便识别处理;

- format是固定的WAVE
- 如果SubChunkID是fmt就是采样的信息,接着才是原始数据,如果SubChunkID是data,就表示后面直接就是原始数据;
- BlockAlign表示字节对齐数,如果是4字节,那么原始数据的一个采样就是4个字节表示的
