thchs30中文数据库和脚本分析

2017-11-24  本文已影响0人  诸葛村姑

thchs30数据库大小:6.4G,其中,这些录音根据其文本内容分成了四部分,A(句子的ID是1~250),B(句子的ID是251~500),C(501~750),D(751~1000)。ABC三组包括30个人的10893句发音,用来做训练,D包括10个人的2496句发音,用来做测试。

脚本分析(根据s5/run.sh)


一、#data preparation(数据准备)

根据脚本local/thchs-30_data_prep.sh,在data文件夹下生成了train、dev和trest三个文件夹,然后分别在每个文件夹下生成wav.scp,utt2spk.scp,spk2utt.scp,text文件。

text:包含每段发音的标注,例,A02_000 绿 是 阳春 烟 景 大块 文章……

说话人编号_发音编号。

wav.scp:发音编号_对应路径,例,A02_000 /media/dsp_usr……/train/A2_0.wav

(thchs30例子中没有segments文件,实际上每个文件只是一句话,也不需要分段)

utt2spk.scp:发音编号_对应说话人编号,例,A02_000 A02

spk2utt.scp:与utt2spk.scp相反。事实上,自己搭建ASR系统时,该文件直接由utt2spk.scp生成,untils/uut2spk_to_spk2utt.pl data/train/utt2spk > data/train/spk2utt


二、#produce MFCC features(生成MFCC特征)

steps/make_mfcc.sh

steps/compute_cmvn_stats.sh

上一篇下一篇

猜你喜欢

热点阅读