扩充训练集 aishell
2021-02-22 本文已影响0人
静一下1
训练集扩充
将aishell中train文件下120098条语音来扩充训练集:
原本语音对应的句子格式如下图
需要改成这样的
character.txt文件 :将其与原来的训练集合并 一共132098条数据
wav.scp文件: id 对应路径
训练
训练一个epoch大概许需要18分钟,初步训练了80个,也就是需要大概 24个小时
所占的显存还是7000多MiB 与扩充之前相差不大,训练数据的大小并没有影响所占的显存,模型太大了
把batch_size降到8之后 显存和GPU占用率都会明显降低
通过显存占用公式:
可以解二元一次方程组: 解得模型所占显存大概是1161MiB
一个样本的显存为374.75MiB
在训练时间上一个epoch需要19分钟左右,增加并不多。