kaggle竞赛：Jigsaw Unintended Bias

2019-06-14 本文已影响0人深度学习模型优化

目前在做的这个比赛，主要是希望通过BERT模型的微调和使用双向LSTM来做预测。

考虑到诸多提交限制：

因此，我采取了训练和推理分离的机制。

首先快速构建baseline，然后使用baseline分别针对768和1024两个版本进行训练。

这里需要提一下每次8个小时的训练，只使用1/4的训练数据，这样可以再5小时以内完成一次训练，得到一个.bin文件。
保存该.bin文件，在下次再随机抽取1/4的训练，进行训练，如此往复，就可以得到预测结果了。