thchs30中文数据库和脚本分析

2017-11-24 本文已影响0人诸葛村姑

thchs30数据库大小：6.4G，其中，这些录音根据其文本内容分成了四部分，A（句子的ID是1~250），B（句子的ID是251~500），C（501~750），D（751~1000）。ABC三组包括30个人的10893句发音，用来做训练，D包括10个人的2496句发音，用来做测试。

脚本分析（根据s5/run.sh）

一、#data preparation（数据准备）

根据脚本local/thchs-30_data_prep.sh，在data文件夹下生成了train、dev和trest三个文件夹，然后分别在每个文件夹下生成wav.scp,utt2spk.scp,spk2utt.scp,text文件。

text：包含每段发音的标注，例，A02_000 绿是阳春烟景大块文章……

说话人编号_发音编号。

wav.scp：发音编号_对应路径，例，A02_000 /media/dsp_usr……/train/A2_0.wav

（thchs30例子中没有segments文件，实际上每个文件只是一句话，也不需要分段）

utt2spk.scp：发音编号_对应说话人编号，例，A02_000 A02

spk2utt.scp：与utt2spk.scp相反。事实上，自己搭建ASR系统时，该文件直接由utt2spk.scp生成，untils/uut2spk_to_spk2utt.pl data/train/utt2spk > data/train/spk2utt

二、#produce MFCC features（生成MFCC特征）

steps/make_mfcc.sh

steps/compute_cmvn_stats.sh