扩充训练集 aishell

2021-02-22  本文已影响0人  静一下1

训练集扩充

将aishell中train文件下120098条语音来扩充训练集:

原本语音对应的句子格式如下图

需要改成这样的

character.txt文件  :将其与原来的训练集合并 一共132098条数据

wav.scp文件: id 对应路径

训练

训练一个epoch大概许需要18分钟,初步训练了80个,也就是需要大概 24个小时

所占的显存还是7000多MiB 与扩充之前相差不大,训练数据的大小并没有影响所占的显存,模型太大了

把batch_size降到8之后 显存和GPU占用率都会明显降低

通过显存占用公式:

可以解二元一次方程组:\begin{align}\begin{cases}x+16y=7157 \\x+8y=4159\end{cases}\end{align}   解得模型所占显存大概是1161MiB 

                                                                                          一个样本的显存为374.75MiB

在训练时间上一个epoch需要19分钟左右,增加并不多。

上一篇下一篇

猜你喜欢

热点阅读