特征提取关键参数

2020-12-24  本文已影响0人  静一下1

Fbank特征提取关键参数

waveform:大小为(c, n)的音频张量,其中c在[0,2]范围内

blackman_coeff :广义Blackman窗口的常系数。(默认值:0.42)

channel : (-1-> expect mono, 0-> left, 1-> right)(默认值:.-1)

dither :抖动常数(0.0表示没有抖动)。如果您关闭这个,您应该设置energy_floor选项,例如设置为1.0或0.1(默认值:0.0 )

energy_floor:频谱图计算中能量的地板(绝对的,而不是相对的)。注意:这一层应用于第零分量,代表信号总能量。单个谱图元素上的地板固定在std::numeric_limits<float)::

epsilon:帧长度,单位是毫秒(默认:25.0)

frame_shift :帧移位,单位为毫秒(默认值:10.0)

high_freq :mel bins的高截断频率(如果<= 0,从Nyquist偏移)(默认值:.0.0)

htk_compat :如果为真,把能量放在最后。(需要更改其他参数)。(默认值:False)

low_freq:mel bins的低截止频率(默认为20.0)

min_duration :需要处理的段的最小持续时间(秒)。(默认:“0.0)

num_mel_bins :滤波器的数量(默认:“23 ,这里改为了40)

preemphasis_coefficient:用于信号预修正系数(默认值:0.97)

raw_energy :如果这是真的,计算能量之前预加重和窗口(默认值:True )

remove_dc_offset :在每一帧(默认减去平均波形真正的)

round_to_power_ofwo :如果为真,则将窗口大小舍入到2的次方乘以零填充输入到FFT。(默认为真)

sample_frequency :波形数据采样频率(默认指定16000.0)

snip_edges :如果为True,结束效果将只输出完全适合文件的帧,帧的数量取决于frame_length。

subtract_mean:减去每个特征文件的平均值;不建议这样做这种方式。(默认值:False)

use_energy:在FBANK输出中添加一个额外的维度。(默认值:False) 

use_log fbank:如果为真,产生log-filterbank,否则产生线性。(默认值:. true) 

use_power :如果为真值,则使用power值,否则使用大小值。(默认为真)

vtln_high:默认:"-500.0

vtInlow:VtIn扭曲因子(默认:"1.0)

window_type :窗口类型(' hamming' ' hanning' 'povey' '矩形' ' blackman'(默认:'povey')

patch_size改为8,vocab_size=4200,结果不好

patch_size改为16,vocab_size=4200,结果很好

测试还是不能测太多

测了25个就是极限了

接下来准备每25个测一下

上一篇 下一篇

猜你喜欢

热点阅读