kaggle竞赛:Jigsaw Unintended Bias
2019-06-14 本文已影响0人
深度学习模型优化
目前在做的这个比赛,主要是希望通过BERT模型的微调和使用双向LSTM来做预测。
考虑到诸多提交限制:
- 脚本不能联网;
- 运行时间不能超过2个小时。
因此,我采取了训练和推理分离的机制。
首先快速构建baseline,然后使用baseline分别针对768和1024两个版本进行训练。
这里需要提一下每次8个小时的训练,只使用1/4的训练数据,这样可以再5小时以内完成一次训练,得到一个.bin文件。
保存该.bin文件,在下次再随机抽取1/4的训练,进行训练,如此往复,就可以得到预测结果了。